海關總署金關工程二期項目——承前啟后,助力海關信息化建設
價值體現
l 夯實數據基礎資源,消除信息孤島:一是豐富海關基礎數據源,打破部門之間存在數據壁壘,實現信息互聯互通。二是海關預算和財務管理方面,打破現有系統之間數據分散、相互獨立、無法互通的現狀,實現“財”與“物”的聯動比對,實現海關所有信息系統之間數據的對碰分析;
l 大幅提高計算性能:在不同場景下,計算效率為原有系統的10-1000倍,滿足各類實時數據查詢、分析需求;
l 助力海關變革,提升效率:通過高性能的分析和計算能力,解決傳統數據庫在OLAP場景下計算和存儲能力擴展方面的瓶頸,從而為海關借助數據提升監管能力,提高宏觀決策水平,提速業務效率,統一數據指標提供技術支撐;
l 簡化數據加工流程,節約投資:成功支撐海關多類查詢分析型應用,實現通過一個中心數據,集中抽取加工,多地查詢使用,從而簡化數據加工流程,避免同一業務多次投入硬件資源;
l 異地容災部署,保障系統高可靠:通過異地多數據中心部署,實現了容災功能,保證了整體系統的高可靠。
解決方案
采用GBase 8a MPP Cluster構建結構化動態數據倉庫子系統,實現對海關各系統使用數據的存儲,并通過數據的復雜關聯計算和深度分析與挖掘,完成數據匯總、模型搭建及運行,以及將計算和匯總結果生成特定項目標簽、指標庫等。為上層系統提供海量數據的即席查詢、復雜計算、數據挖掘等功能。
GBase 8a MPP Cluster采用Shred Nothing+MPP的分布式扁平架構,該架構具備極強的擴展能力,使GBase 8a MPP Cluster不僅可以獲得PB級數據存儲能力,還實現了高性能的分布式數據處理,實現大并發和大規模數據復雜查詢的秒級響應。此外,通過構建集群級別的雙活系統,保證了數據的安全性,提高了系統的容災級別;集群內的多副本機制通過數據冗余保證了集群本身的高可用特性。
目前動態數據倉庫子系統已經累計部署124個數據節點,實現北京,廣州異地部署,底層數據共享互通,上層業務協同合作的模式。北京中心部署1套38節點(信息資源規劃共享服務平臺數據倉庫),1套14節點(DSS決策支持系統),1套6節點(UDPP統一數據加工平臺),1套2節點(數據中心數據倉庫);廣東分中心部署兩套集群,分別是1套38節點(信息資源規劃共享服務平臺數據倉庫災備系統),1套14節點(決策支持系統DSS 災備系統),風險查驗系統為4個節點,征稅管理系統為8個節點。數據總量達到20TB,日均處理數據增量7GB。信息資源規劃共享服務平臺數據倉庫承擔超過500張表模型,DSS決策支持系統承擔超過800張表模型。
為了實現數據的高安全性,核心系統信息資源規劃共享服務平臺和DSS決策規劃系統采用物理集群在廣州,北京兩地災備部署,底層數據來源共享,上層業務協同分工的模式。金關二期將通過建設二地二中心來承載查詢分析和OLAP類應用,北京和廣州OLAP類數據采用集群災備模式部署,因此數據如何在兩地同步成為金關二期建設中必須要解決的重要技術問題。通過分別部署在北京、廣州兩個中心的MPP數據庫集群數據加載機的FTP推送功能,實現了兩個中心MPP數據庫集群之間的數據同步,從而保證了北京、廣州兩個中心的MPP數據庫集群的數據一致性。
數據同步具體過程為:北京中心作為主中心進行數據抽取、清洗、轉換等工作,生成新增數據文件并放置在該中心的MPP數據庫集群的數據加載機上,加載機通過使用FTP推送功能將新增數據文件推送到廣州中心的MPP數據庫集群數據加載機上。作為從中心,對接收到的新增數據文件進行處理,實現兩中心MPP數據庫集群的數據同步。
需求分析
“金關工程二期”項目是“金關工程一期”項目的延續與發展。除了引進新技術,構建新框架,解決新問題之外,還要考慮如何能夠充分貼合“金關工程一期”已有項目系統,充分利用原有資源。為此,在構建結構化動態數據倉庫子系統的過程中,力爭達到既要保證數據處理技術的先進性,滿足對海量數據處理的性能要求,又要保證系統的兼容性,為數據的導入,集成和對接掃清障礙。為了方便闡述,可概括性的從如下幾方面進行介紹:
(1) 業務場景對數據平臺性能要求較高:
l 對于大規模數據,加載速度應大于等于1TB/每小時;
l 更新、刪除速度應大于10000 行/每秒;
l 能支持 500 用戶進行并行訪問,平均響應時間應在1分鐘以內;
l 支持讀寫并發訪問;支持多張TB量級數據表進行關聯,并返回千萬級結果集。
(2) 對海關信息資源進行全面規劃和統籌設計,為系統間互聯互通、優化整合提供統一數據平臺,解決信息孤島,指標不一致等問題;
(3) 全面整合業務數據,配合海關業務系統從偏重事務處理轉向偏重決策分析轉變,提升業務數據價值;
項目背景
針對當前海關關境嚴峻的保護任務以及亟待提升的口岸通關環境,海關總署于2012年在“金關工程一期”建設的基礎上開展“金關工程二期”建設,全面推進海關“把關”與“服務”能力同步提升的信息化建設。
在“大數據”時代,如何將海關部門的海量數據充分集成,打破部門信息壁壘,使數據真正在海關部門內部流動和流轉起來,從而更好的服務上層業務系統是該項目關注的重點問題。針對數據層的技術選型,需要達到夯實基礎,合理規劃,提前布局的目標。
構建結構化動態數據倉庫子系統是解決上述問題實現預期目標的重要技術手段和方法。該系統建立后將支撐信息資源規劃系統、海關監控指揮系統、企業誠信系統、緝私情報系統、物流全程可視化系統等眾多統計分析類應用。