某電信運營商基地經分系統建設——海量數據高效加工及快速查詢響應
價值體現
● 快速上線:GBase 8a MPP支持SQL92標準,語法上與傳統的基于DB2的數據倉庫能夠最大兼容,縮短了應用開發的周期,節約了項目人力投入;
● 支持海量數據:GBase 8a MPP承載了整個基地業務分析系統的核心數據倉庫作用,負責逐層數據加工,基于高效的復雜關系運算和數據關聯運算能力,保證了對海量多樣的業務數據的整合處理能力和及時的數據加工能力;
● 快速查詢響應: GBase 8a MPP作為數據倉庫平臺,大幅提高數據定位效率和處理并行度,實現在一種平臺上同時支持高效的離線批處理和自助取數等交互數據處理模式。
解決方案
本期平臺架構如下包括如下幾部分內容:
● 數據接口:本平臺聚合現有業務數據,包括:大數據平臺、核心平臺、以及相關各業務平臺數據等;接口數據包括從各個業務系統收集的天氣、生活、工作、農情氣象、政務、核心平臺、營銷支持、基地網站、熱線等各類業務數據;
● 數據計算和存儲:整體倉庫采用MPP架構實現高并發、高性能的數據處理能力。數據倉庫由ODS、DWD、DW、DM組成,形成面向應用的數據倉庫模型架構;
● 數據應用:系統對外提供指標和標簽服務;
● 數據共享:在服務提供形式上,對外實現API、文件、消息三類數據共享方式;
● 數據資產管理:提供數據的統一調度、統一監控、統一分發。
作為本系統的數據存儲和管理層的數據倉庫平臺,采用GBase 8a MPP Cluster在MPP內部存儲和管理從各個系統收集并清洗過的ODS數據,并在ODS之上利用MPP數據庫強大的復雜關系處理能力、數據關聯運算能力,進行逐層加工,形成庫內DWD、DWA的數據倉庫層,并從數據倉庫層的數據導出DM數據集市數據供上層應用實現指標運算、標簽算法和自助取數處理。對于ODS層的94156張表、DW層的7219張表,系統在每天夜間2:00完成各類數據入庫處理后,能夠保證在次日的8:30業務時間開始前完成所有的指標計算和標簽生成工作,大大提升了數據處理的能力。
項目背景
某基地是某電信運營商集中建設、服務全國的公益性民生信息服務平臺。隨著該基地業務規模和種類的不斷拓展,數據規模以前所未有的方式增長,數據類型呈現多樣化發展的特點,傳統的數據管理能力已經不能滿足現有業務發展的需要,提升數據的集中存儲和數據資產管控能力迫在眉睫。此外基地業務對于數據的開發和利用也呈多樣化要求發展的趨勢,表現在數據標簽的生成、數據挖掘模型的建立、KPI指標的展現與監控等等。基于這種發展要求,該基地也非常迫切建立新型架構的用戶數據分析平臺以滿足現有業務的發展需要。當時基于小型機+傳統關系型數據庫構建的經營分析系統,對于基地數據分析等大數據應用存在著擴展性差、性能隨數據增加而下降、系統無法靈活變更數據模型以及數據庫優化代價高等關鍵問題。該基地用戶數據中心分析平臺的建設以實現有效聚合基地數據,實現海量數據高效處理為目標,本期建設采用先進的倉庫架構、模型及軟件功能,進行規范的基地數據資產管控,實現內部數據有效整合。
需求分析
該基地用戶數據中心分析平臺實現內部數據的有效整合,通過自助取數、API等多種對外開放能力,將標簽、指標能力對外進行提供。該平臺為角色用戶、業務提供了面向市場的營銷支撐能力:
● 實現數據的集中存儲及數據資產的集中管理;
● 實現與業務平臺和支撐平臺的上下行數據接口;
● 實現與重慶業務大數據平臺的接口。
作為本項目所實現的分析業務目標包括:
● 指標展現(KPI、報表),數據指標:6個業務,共135指標;
● 數據標簽:6個業務,共734標簽;
● 數據挖掘:6個業務,每個業務1個模型,共6個模型;
● 標簽對外服務:通過自助取數、API等多種形式對外進行標簽對外服務。
作為系統數據倉庫承載的總數據規模,數據承載60TB數據量,每日入庫數據為200GB。整個分析業務相關的數據涉及近10萬張表,數據每日的日次處理需要在次日業務時間(8:30)開始前完成。