多源異構大數據平臺的建設及應用

2021-10-09 23:26劉琦
軟件工程 2021年10期
關鍵詞:大數據平臺

劉琦

摘? 要:針對公安機關使用的信息系統普遍存在“數據壁壘”,不利于偵查辦案的實際問題,設計并實現了多源異構大數據平臺。該平臺能夠實現偵查、治安、交管等多類業務系統結構化、非結構化、半結構化異構數據的有效匯集整合,通過數據處理、目錄管理、分析研判等功能,解決由于數據無法有效利用而導致“信息孤島”、無法服務于偵查破案的問題。該平臺應用結果表明,平臺的建設能夠有效地匯聚數據資源,實現多源異構數據的分析處理及態勢預測,具有較高的行業應用價值。

關鍵詞:多源異構數據;大數據平臺;SolrCloud

中圖分類號:TP391? ? ?文獻標識碼:A

Construction and Application of Multi-source Heterogeneous Big Data Platform

LIU Qi

(Network Security Department, Henan Police College, Zhengzhou 450000, China)

569797767@qq.com

Abstract: Data barriers widely exist in the information systems of public security organs, which are not conducive to investigating and handling cases. Aiming at this problem, this paper proposes a multi-source heterogeneous big data platform. The platform can realize various business systems such as investigation, public security, and traffic management, and effectively collect and integrate structured, unstructured, and semi-structured heterogeneous data. Functions of data processing, catalog management, analysis and judgment are performed to solve problems of information islands and the inability to serve investigations and resolution of cases, due to ineffective use of data. The platform application results show that the platform construction can effectively gather data resources, realize the analysis and processing of multi-source heterogeneous data and forecast the situation. It has high industry application value.

Keywords: multi-source heterogeneous data; big data platform; SolrCloud

1? ?引言(Introduction)

隨著經濟和科技的高速發展,伴隨而來的各種新型犯罪活動頻率高并且難以偵破[1]。經過多年持續不斷的建設,公安信息化已經步入智慧公安時代,其發展重點逐步從基礎設施建設向管理與應用轉換。但是,由于技術、管理等多方面因素限制,“數據壁壘”問題尤為突出[2],各業務警種各自占據不同的數據資源,卻無法甚至不愿意進行資源共享,使得數據、信息流轉不暢,對偵查辦案支撐不力。為解決上述棘手問題,各地公安機關紛紛通過建設公安大數據中心、搭建公安大數據平臺的方式,實現數據匯聚、資源共享并完成研判分析等工作[3]。

隨著公安大數據中心建設的不斷推進,根據工作需要,公安機關數據中心紛紛建設多源異構大數據平臺,組建與之匹配的機構,分配專職工作人員,用以滿足業務需要。公安大數據平臺(以下簡稱“平臺”)逐步成為提升公安機關偵查破案效率的有力工具[4]。平臺能夠為授權用戶安全獲取相應數據,深度利用數據取得情報奠定基礎[5];平臺也能夠為滿足公安數據考核要求、公安情報工作、公安業務開展,提供公共、基礎、權威、完善的數據資源支撐服務。

2? 多源異構大數據平臺研究現狀分析(Research status analysis of multi-source heterogeneous big data platforms)

平臺建設的目標是匯集整合各類業務系統數據,有效解決各業務系統間存在的信息孤島、信息壁壘等客觀問題[6],構建形成一套上下級聯合、橫向貫通、邏輯一體化的數據服務體系,建設一套科學理論來實現數據的科學治理[7]。但是,目前各級公安機關僅僅實現了各業務系統數據的匯集和數據標準化,數據間蘊含的價值無法體現;各種類型數據間關系無法進行關聯,結構化與非結構化的數據無法實現橫向擴展,歷史圖像、音頻、視頻等也不具備再次分析利用的條件,整個數據循環無法達到閉環傳輸利用的效果[8];從海量動態數據中快速、精準地發現、排查可疑信息的能力提升空間較大;重大案事件的預測預警預防精度不夠,數據治理方法不科學,治理效果堪憂。基于上述情況,本文提出公安多源異構大數據平臺的設計方案,希望對解決公安大數據平臺中存在的諸多問題起到借鑒作用。

3? 公安多源異構大數據平臺的設計(Design of public security multi-source heterogeneous big data platform)

3.1? ?總體架構

根據業務需要,平臺的建設需要匯聚各類業務系統數據,涉及公安、交通、發改(發展改革)、統計、工商、地稅、互聯網、銀行、社保等各類多源異構數據。獲取的數據需要經過清洗及抽取,內容過濾、存儲,消息服務,數據統計等預處理,匯入數據資源池。入池后數據經過再清洗,標記,分類分級,索引、存儲、更新等數據處理過程后,實現數據目錄管理,如將數據分別放置于內存數據庫、基礎數據庫、專項數據庫、關聯數據庫、共享數據庫、決策數據庫、資源數據庫等目錄中,以備之后的數據研判與挖掘。數據研判與挖掘子系統實現實時數據流挖掘,關聯分析、統計、反演,態勢預測分析、可視化展示等功能,并推向需要的業務系統中的相關應用。最終,通過綜合分析研判,領導、專家會商等,支持最終決策判定。其總體架構如圖1所示。

3.2? ?功能架構

融合平臺包括基礎設施層、信息資源層、應用支撐層、應用層四個層面。基礎設施層主要包括網絡、主機、存儲、系統軟件、大數據軟硬件等設備,完成融合平臺建設需要的設施保障。信息資源層包括基礎地理信息庫、治安庫、警綜庫、交警庫、出入境庫、信息資源服務總線等,實現原始庫、歷史庫、共享庫、日志庫之間的信息資源流轉。應用支撐層提供相關應用的支撐,包括權限控制、系統監控、采集系統、目錄管理、資源發布、交換共享服務、其他服務、數據交換、數據采集、安全監控、統計分析、數據整合、數據審核、綜合查詢、統計共享、元數據管理及其他組件等。應用層提供平臺門戶、搜索引擎、預警發布、業務系統、決策分析、查詢與統計等應用。同時,系統需要以運維管理體系、安全防護體系、標準體系及容災備份系統做支撐,如圖2所示。

融合平臺設計與實現的關鍵在于數據接入整合、數據標準管理、數據資源目錄、數據融合、數據匯聚庫、基礎數據庫、動態數據庫、數據存儲管理、數據質量管理、數據資源監控等功能的實現,下面將分述之。

(1)數據接入整合

匯聚整合數據來源包括警務基礎工作平臺數據、情報綜合應用平臺數據、地理信息系統數據、視頻監控平臺等系統數據;公安部及省廳下發數據、平行公安機關協作交換數據,同時接入電子政務數據、社會信息數據及移動互聯網數據。匯聚整合數據種類包括數字、文本、圖表、視頻、音頻、地理空間等結構化、半結構化、非結構化數據。數據接入要解決的關鍵問題是多源數據問題,如數據跨網傳輸、數據存儲不統一、數據結構不規范、動態靜態數據同時存在等情況。

數據接入平臺由兩部分組成:數據采集工具和數據轉換工具。數據采集工具KETTLE的功能和技術特點主要體現在:數據聯邦技術、數據緩存技術、數據優化技術、高效跨庫數據加載技術和數據復制技術。其數據處理流程圖如圖3所示。

(2)數據標準管理

公安信息標準化的基礎是數據的標準化。公安數據中心建設旨在整合共享最大化,數據共享的最佳途徑是數據標準化。基于數據中心建設的總體思路,依據統一數據規范建設數據標準基礎庫、數據標準管理庫、數據標準應用庫和專題分析庫。數據標準管理主要包含數據元管理、代碼項管理、數據項管理、同義(近義)詞管理、術語管理、質量自檢、標準檢索統計等,結合標準注冊工具、標準監測工具,實現對數據標準的注冊、修改、發布、審核、啟用、停用、下線等全流程管理,為數據標準化提供依據支撐,同時數據標準也要符合公安部數據標準規范。

(3)數據資源目錄

數據資源種類繁多,需要根據一定的標準進行科學編目。數據資源目錄包含數據資源注冊、數據資源發布、數據資源維護、數據資源查詢等。數據資源注冊時,關鍵信息包含數據資源編號、數據資源名稱、所屬目錄編號、數據資源描述、數據資源提供單位_公安機關機構代碼、數據資源事權單位_事權單位代碼、數據資源及其更新方式代碼、更新周期代碼、公安業務分類代碼、行業屬性代碼、數據資源共享范圍代碼、數據資源共享方式代碼、數據資源共享地區代碼、數據資源共享部門代碼、數據資源要素分類代碼、數據資源屬性分類代碼等。

(4)數據融合

數據融合是基于公安信息網、各類專網、互聯網等不同數據源采集的海量異構數據,根據人員、地址、車輛、資訊信息、虛擬身份、警情、案事件等要素建立若干個相互獨立而又邏輯貫通的數據庫。

(5)數據匯聚庫

數據匯聚庫是對元數據中結構化數據和非結構化數據通過數據文件交換、數據接口同步后進行存儲,實現數據預處理(格式轉化、錯誤糾正、去重、標準化等工作),再實現數據關聯,通過分類整合,形成基礎數據或動態數據。

(6)基礎數據庫

將基礎數據從數據匯聚庫中抽取出來,儲存到基礎數據庫中。此類信息具有相對固定、變化頻率不高、變化程度低的特點。

(7)動態數據庫

將動態數據從數據匯聚庫中抽取出來,儲存到動態數據庫中,如卡口車輛通過信息、網吧上網信息、住宿信息、出租車信息、火車訂票信息、出入境記錄信息等。此類信息具有實時變化、每日數據增量較高的特點。

(8)數據存儲管理

數據存儲管理實現對計算集群、數據存儲、文件系統及數據庫的有效管理、任務調度、服務監控,具有高可靠的架構設計。基礎數據、動態數據在存儲入庫后,將所有數據按照公安五要素進行邏輯上的分類。

(9)數據質量管理

數據質量管理貫穿數據采集、匯聚、整合和綜合應用全過程。數據質量管理目標是建立一體化的數據質量監控體系,構建平臺化、智能化的數據質量監控分析模塊,包括業務邏輯校驗、數據質量監控和問題數據糾錯等應用功能。

(10)數據資源監控

數據資源監控能夠及時掌握數據資源匯聚的規模、數據質量情況、數據傳輸情況。通過對數據資源涉及的整合情況、數據交換情況、數據資源情況、數據質量情況、數據實時傳輸情況、硬件設備資源情況等進行實時監控,可視化地展示給民警,并能進行及時告警。

4? 多源異構大數據平臺的應用示例——大數據檢索的實現(Application example of multi-source heterogeneous big data platform—implementation of big data retrieval)

由于數據的指數級增長趨勢,從多個數據源采集、融合、分析、處理數據成為學術界、工程界的研究熱點之一。使用大數據檢索技術是解決海量數據中有價值信息快速提取的有效方式。基于多源大數據進行檢索,提取有價值的信息深挖情報是公安機關偵查破案的常用方式。當今流行的搜索引擎有以下幾種:全文搜索引擎、目錄索引引擎和元搜索引擎。比較多種檢索技術后,選擇實用性強、重復利用性高的分布式全文檢索系統,它的實現基于SolrCloud集群技術,以實現公安多源信息檢索技術。

4.1? ?系統總體設計

多源異構大數據平臺的典型應用——分布式全文檢索系統總體設計根據現實需求分析,如圖4所示。

4.2? ?系統核心設計

分布式全文檢索系統的核心設計為:用戶輸入搜索字詞,各索引分片上的節點分別進行條件檢索,輸出結果,再由最初受理的節點合并結果并將其排序,最終輸出給用戶,如圖5所示。

4.3? ?系統部署與安裝

第一步:環境準備,即服務器、3 個centos 6.2。部署計劃如表1所示。

Zookeeper:選擇端口2181。

軟件環境:JDK 1.7以上版本;Zookeeper管理配置信息和集群狀態。下載JDK、Zookeeper、Solr。

第二步:安裝相應環境,以便提供檢索服務。安裝完成后,能夠訪問部署的Solr集群中任意的端口服務。

5? ?結論(Conclusion)

隨著智慧公安建設的不斷推進,公安大數據必然發揮越來越重要的作用。公安大數據平臺因其匯聚多源、異構、海量數據,并能夠對這些數據進行分析研判,輔助領導決策而起到了“公安智慧大腦”的作用。本文闡述了公安大數據平臺的架構、功能結構,并以大數據檢索為例,闡述其部署及安裝。

參考文獻(References)

[1] 孟穎.基于云計算的大數據網絡信息檢索技術及擴展[J].科技資訊,2019,17(27):11-12.

[2] 曾倩倩,張婷婷.基于大數據的圖像檢索技術在偵查中的應用[J].電子技術與軟件工程,2018(21):175-176.

[3] 朱維和,魏鋒,高曉嵐.公安大數據治理技術研究[J].警察技術,2018(06):32-35.

[4] 邱明月,唐松澤.基于互聯網資源的公安數據挖掘能力培養研究[J].信息與電腦(理論版),2018(19):158-159.

[5] 徐茂春.網絡安全分析中的大數據技術[J].電子技術與軟件工程,2018(18):200.

[6] 葛文.視頻大數據在公安行業的應用分析[J].信息記錄材料,2018,19(10):74-75.

[7] 黨玉龍.公安資源服務平臺異類數據融合設計與高效實現[J].警察技術,2018(05):91-94.

[8] LI F H, ZHAO Z F, WANG Z Y. Hierarchical clustering based on single-pass for breaking topic detection and tracking[J]. High Technology Letters, 2018, 24(4):369-377.

作者簡介:

劉? ?琦(1978-),女,博士,副教授.研究領域:公安信息技術.

猜你喜歡
大數據平臺
基于大數據和人工智能的新型醫藥物流體系構建
大數據平臺下的電力營銷信息化建設探析
河南省鄉村振興大數據平臺構建對策
試論大數據環境下醫院人事檔案的管理與利用
工程造價咨詢企業發展全過程工程咨詢的策略初探
淺談衢州市農業農村大數據平臺建設方案
基于大數據平臺的初中科學單元自主學習的探索
基于大數據平臺的云安全建設
關于社會化第三方環境檢測機構目前存在的問題及未來發展方向的探討
電力營銷大數據平臺建設及數據挖掘分析
中文天堂最新版在线www-bt天堂网www天堂-电影天堂