GBase新聞
全球分布式云大會 GBase GCDW云上邏輯數據倉庫助力行業迎接數字化轉型新挑戰
近日,以“引領分布式云變革 助力灣區數字經濟”為主題的全球分布式云大會在深圳隆重召開,本屆大會由全球分布式云聯盟、深圳科技交流服務中心、深圳市通信學會、眾視Tech聯合主辦。組委會攜手南大通用、阿里云、騰訊云、Google Cloud、華為云、螞蟻集團、浪潮云、金山云等海內外頂尖云計算團隊和分布式云先鋒企業,為粵港澳大灣區數字經濟發展注入分布式云動力,更將中國分布式云計算發展推上全新高度!
在分布式數據論壇上,天津南大通用數據技術股份有限公司數據智能產品經營部總經理張紹勇發表了題為《GBase GCDW云上邏輯數據倉庫助力行業迎接數字化轉型新挑戰》的精彩演講。
傳統企業級數據庫面臨的六大挑戰
一 傳統數據庫有單機架構、分布式架構和存算一體架構,這三種架構都面臨著資源彈性的挑戰,硬件資源在業務高峰時成為瓶頸,但在業務低谷時候又出現浪費。
二 隨著數據量越來越大,傳統的三種架構對數據的承載的能力不足。
三 數據的實時處理的能力要求越來越高。
四 數據類型的復雜性越來越高,傳統數倉主要處理結構化數據,但現在結構化、半結構化、非結構化的場景越來越多。
五 用戶挖掘數據價值需求越來越高,傳統的數據庫在支撐一些深入挖掘的算法方面乏力。
六 安全需求越來越高,尤其隨著國家關鍵信息基礎設施安全保護條例等發布,傳統數據庫在多方面的安全都亟待強化。
為了應對上述挑戰,南大通用把新一代的解決方案稱為“下一代的企業級數據倉庫”。下一代企業級數據倉庫應具備的演進方向有兩個,一是云化、分布式、融合、智能、實時、安全,這六點對應上述六個痛點,云化是解決資源彈性問題,分布式解決數據容量問題,融合是解決多模問題,智能解決數據價值挖掘問題,實時解決以T+1方式演進到準時方式,在加密權限等多方面解決安全問題。
六個方向相互依賴,基礎架構在傳統MPP數據庫分布式融合智能實時點作為基石,在這個基礎之上,提供數據價值挖掘能力;在云計算提供資源池化的基礎之上,把分布式、融合、智能、安全、實時的基礎產品架構在云上。核心是大數據處理能力,解決最基礎的問題,在這一基礎上,張紹勇引入了演講的重心——如何上云的問題。
下一代企業級數據倉庫的重要能力
張紹勇從演進的6個方向總結數據倉庫的四大重要能力:
第一是數據實時化。有三個方向,第一是數據源,傳統的關系數據庫的數據如何同步到下一代數倉里;第二是數據流式的處理能力;第三是數據遷入數倉湖以后,如何處理得更快。
第二是多模能力。通過數據虛擬化的能力來解決,數據在底層存儲在多個引擎中,但用戶不用關注數據位置,需要提供統一的數據訪問能力。
第三是數據平民化。數據要更加可視化,并且能夠以自行自動配置的方式來使用。
第四是數據協作化。系統面臨多種用戶,在一個系統之間進行多租戶管理和分工協作,非常重要。
張紹勇表示,下一代企業級數據倉庫的重要能力就是融合統一。在融合統一的基礎之上才是數據湖、數據倉庫,下一代企業級數據倉庫完全支撐了數據湖、數據倉的能力。數據湖的存儲容量更大、成本更低,數據以原始格式保存,數據的使用更加靈活,面向用戶多樣。數據倉庫的模式是對數據提前加工處理,是模式化的。
云上邏輯數據倉庫
什么是邏輯數據倉庫?
Gartner的定義是不再局限于結構化數據,包括非結構化的數據,邏輯上是個大的數據倉庫,底層包括各種數據源進行關聯處理。
從Gartner的定義中可以總結出以下幾點:
第一,處理的不僅僅局限于結構化數據;
第二,邏輯上是個大的數據倉庫;
第三,雖然邏輯上一體,用戶或多個引擎之間的數據要發生關系,多個數據之間要進行關聯和交換。
邏輯數據倉庫所達到的目標
隨處運行 既可以部署在云上,也可以部署在物理機、虛擬機,無論部署在什么樣的環境下都可運行。
隨處保存 用戶不用關心數據在哪,結構化數據保存在傳統數據庫和MPP里,非結構化可以保存在Hadoop引擎里,這是數據虛擬化的能力。
隨處使用 數據聯邦的能力,使用時既可以處理結構化數據的算法,也可以處理非結構化數據的算法,混合場景也能夠支持。
邏輯數據倉庫的設計理念
傳統的數據倉庫都有數據采集的過程,把數據源的數據通過ETL采集到鏈條里;邏輯數據倉庫叫做重關聯,不需要采集,只需要數據(無論在本地、云端或其他任何地方),使用時只需要做關聯處理。張紹勇補充說,這一場景并不絕對,有些數據需要加工處理的,要先經過集中化,實際上還是要經過ETR,但有些數據出于質量或自研的要求,可能在其他數據源里,直接使用就可以,不需要采集,兩種場景都有它實際的業務使用之處。
基于這樣的設計理念,Gartner在2016年提出來的新一代企業級數據平臺概念:它是綜合分析場景,以及我們對于批量跟實時的工作模式。為了解決這樣的場景,提供數據虛擬化以及數據聯邦的能力,數據虛擬化主要體現在數據實現統一接口的能力,數據聯邦實現跨數據的訪問跟計算。
邏輯數據倉庫的核心技術數據虛擬化和數據聯邦,數據虛擬化的能力解決了多種數據融合的問題,能夠融合管理結構化、半結構化和非結構化的數據,通過統一的入口實現數據的隨處保存。數據聯邦能力通過融合多種計算模型,能夠融合在線分析和關聯分析、圖計算等多種計算模型,實現各種算法融合,繼而讓數據隨處使用;此外,聯邦能力還能夠把底層的多種引擎之間的數據進行打通,進行實時流轉。
下一代大數據平臺架構
中間數據管理層,整個架構是數據采集、數據管理、數據分析挖掘、數據服務計算,傳統的平臺架構都遵循這樣的架構,邏輯數據倉庫在數據處理這一層除了IoT平臺的實時處理以外的其他場景,全部融合成邏輯處理倉庫的模塊來進行統一處理。從下一代大數據平臺的架構里面也能看出邏輯數據倉庫在整個架構里承載著非常重要的功能。
云上邏輯數據倉庫架構分為三層,第一層是統一的接口層,由于Hadoop平臺的廣泛應用,GBase GCDW支持標準的SQL接口。中間層實現了多引擎管理、統一用戶、統一元數據以及跨引擎查詢計劃。最底層實現了多引擎之間的統一數據交換、一致性管理、數據透明實時同步以及數據管理層保障。
通過統一的SQL接口,透明的跨引擎訪問以及全數據類型融合處理,跨域和多中心管理幾個方面實現數據虛擬化能力;通過全算法的融合,打通計算引擎間的數據的關聯,數據生命周期管理實現數據的聯邦能力。
中間統一的邏輯數據倉庫支持多種存儲引擎以及計算引擎,對外提供統一的數據虛擬化層。張紹勇介紹說,整體而言,GBase GCDW通過把不同的存儲引擎面向不同場景,對用戶來說屏蔽了底層,只需要通過統一的數據虛擬化層來訪問不同的引擎,非常方便。
有了邏輯處理倉庫的能力,就能夠完美支撐數據湖、數據倉庫和數據集市。數據湖傳統的架構基本是Hadoop+MPP支撐,通過邏輯數據倉庫統一把Hadoop+MPP的多引擎統一管理起來支撐數據湖的建設。傳統的數據倉庫、數據集市,主流是支持結構化數據處理,用邏輯數據倉庫也能夠完美支持。這樣一款邏輯數據倉庫產品,能夠把架構統一化、簡單化,一種技術架構能同時支持數據湖、數據倉庫、數據集市。
數據智能的實現
挖掘算法
原有的挖掘算法,實際上是在數據庫內部沒有進行挖據算法之前,把數據導入前端工具,以Python的方式進行挖掘學習。把算法集成在MPP集群的內部,就實現了分布式計算,從而提升了數據分析的性能且減少了數據搬遷。
數據安全
數據存儲加密,且要做到透明加密,把進行關注的列進行加密,只需要使用私鑰的Key文件,用戶使用是完全透明的,不需要調用加密算法。
存儲如果沒有加密,還需要對敏感數據進行脫敏。GBase 的動態脫敏技術主要有三種方式,對有關注的數據字段指定脫敏,可指定默認脫敏、隨機脫敏、自定義脫敏。脫敏方式指定完后,跟用戶權限綁定,僅讓有權限用戶看到明文數據,沒有權限的用戶看到是秘文數據。密文有多種表達方式,通過動態數據脫敏實現了數據存儲本身沒有明文沒有加密,但前端根據不同的用戶權限控制數據的不同展現方式。
數據集成
下一代大數據平臺面臨的數據來源是多方面的,輸出也是多方面的,因此需要對數據進行集成整合。為了兼顧實時處理,一種是通過流式方法加入,第二種是通過CDC的方式,第三種是通過批量數據加載,此外還可以通過DBlink方式加載。
多種方式接入到邏輯數據倉庫以后,能夠進行在線庫跟離線庫的統一處理。處理完的結構我們可以通過標準的開發結果的方式來提供給應用程序,或通過文件方式給到下游,抑或提供給訪問者。無論輸入或輸出,GBase 支持多種的數據集成方式。
數據接入完成后的快速算法
云上邏輯數據倉庫支持新一代向量計算引擎,傳統按行來處理,面臨函數調用開銷比較大的問題,無法充分利用現在CPU的SIMD的指令集,要支持新一代的向量計算引擎,能夠按塊計算,從而提升數據的運行能力。隨著國產化的推進,GBase 現在基于NUMA架構,在NUMA架構的基礎上,發揮多種架構的優勢,提供多實例部署方式,原來是部署一個實例,現在根據NUMA綁定到多個使命,帶來的優勢是避免了跨NUMA內存訪問性能還是比較低的問題,提升了在多NUMA架構上的運算性能。
2020年底,GBase 只需要8臺物理機就可以達到894萬的Performance值。數據庫產品的核心要把硬件能力充分發揮出來,這也是作為基礎軟件要持續努力要做的工作。
集群規模也是GBase 一直追求的目標,分布式要解決的問題也是數據的容量如何擴大,從GB級到PB級,GBase 做了兩方面的測試,一是數據基礎能力測試,一個是性能測試。基礎能力測試覆蓋能各個方面,性能側在金融和電信兩個場景進行了測試。截至目前,GBase 在國內MPP規模最大,單個MPP集群達到4096個節點,并且通過了基于金融電信兩個模型的性能測試,是國內首家。
云上數據倉庫如何上云
上云是兩個方面,一是上私有云,二是上公有云。GBase 支持兩種方式,一個是私有云上的塊和對象存儲,第二個是公有云對象存儲。云上邏輯數據倉庫完全搬到公有云、私有云上,并且已經有實踐案例。數據接入和運維能力管理的核心是中間數據倉庫的虛擬倉庫層、計算層,實現了數據按照不同的邏輯有分成不同的虛擬倉庫,底層存儲層實現塊跟對象的兩種方式,公有云上主要是對象存儲,私私有云上可以是塊和對象存儲。
中間層,即虛擬倉庫層,邏輯上對用戶來說是上層通過統一的接入層實現了統一的調度管理;中間層,用戶根據不同的業務建立獨立的虛擬倉,支撐不同的關注業務。不同的虛擬倉庫之間,底層數據是共享的,最上層統一調度實現統一訪問,在不同的虛擬倉庫之間實現了故障隔離、資源的隔離,并且每個獨立的虛擬倉庫可以獨立擴容,用戶運維更加簡單。
湖倉一體核心有三個特性,第一點,既然是湖倉一體,它的存儲是共享的;第二點,湖倉一體多個引擎之間數據之間要融合打通,也就是數據聯邦能力,數據關聯運算;第三點,一份數據面向不同的場景,有多種計算引擎要支持,需要多種計算引擎多模的能力。
云上邏輯數據倉庫能夠支持湖倉,數據共享,計算存儲分離,滿足了上述第一點;邏輯數據倉庫支持了多個計算引擎,滿足第二點;邏輯數據倉庫本身把多引擎數據、關聯計算、數據交換打通,滿足了第三點。
存儲層實現了一站式數據存儲。中間彈性計算層支持虛擬機、容器、裸金屬多種方式。最上層實現了一站式數據治理,使數據資產化。因此云上邏輯數據倉庫的能力,能夠完美支持湖倉一體下一代企業級數據倉庫建設。平臺部署在云上,整個數據存儲集成,數據管理、平臺管理都屬于PaaS,在這基礎之上提供SaaS層的數據服務。整個基礎架構再加服務,以DaaS的方式對外提供服務。
張紹勇總結說,為了解決傳統數倉面臨的六大挑戰,我們提出了下一代企業級數據倉庫主要演進的方向——云化、分布式、實時、智能、安全。通過邏輯數據倉庫提供分布式能力,融合處理、實時和安全能力,從而實現了全類型數據的融合,解決整個數據存儲和處理的問題。通過機器學習 in Database AI的集成,實現了數據價值的挖掘。把整個邏輯數據倉庫搬到云上,以DaaS的方式對外提供服務,實現了DaaS、IaaS、PaaS的融合,繼而實現了上云的能力。
綜上,云上邏輯數據倉庫為數字行業信息化找到了支點,解決了傳統數據倉庫面臨的六個挑戰以及下一代企業級大數據庫應該解決的六個方面的問題,GBase 能夠完美支撐下一代企業級大數據倉庫。
GBase 支持多云、混合云,支持海內外的公有云、私有云,通過統一的接口層實現對塊存儲、對象存儲數據的統一訪問,通過計算引擎實現了緩沖管理,對象存儲的性能比較低,需要進行多級緩沖管理加速執行性能,為用戶提供接入的調度層實現統一資源的調度。有了上述幾層能力之后,就能夠為用戶提供云服務的整個訂購、服務的入口和統一的管理。
關于南大通用公司
南大通用到目前已經成立17年,專注于數據庫跟大數據產品的研發,是國內目前唯一一家在金融電信行業得到規模化應用的數據庫企業,在金融電信領域擁有大量客戶,形成了主流的三款大數據產品。
南大通用入圍2017、2018年Gartner分析型數據庫魔力象限,2019年Gartner發布的全球19款數據倉庫產品排名,GBase GCDW排名全球第七,是國內唯一上榜產品。
南大通用在中國市場取得了巨大成功,在金融電信領域部署MPP倉庫,提供邏輯數據倉庫解決方案,也業內相處于領先地位,并覆蓋除電信金融外的其他各行業,總節點超過3萬。
GBase GCDW助力中國農業銀行總行建設了集中化的大數據平臺,總的節點數超過2000,穩定運行超2000天。
GBase GCDW在中國銀行,中國人民銀行、招商銀行等大國有銀行和股份制銀行也都有應用,并覆蓋大量城商銀行、農信社。
在電信行業,南大通用助力中國移動集團總部部署了集中經營分析系統,也超過了上千節點,覆蓋了中國移動全國31個省中的22個省,覆蓋率超過80%。
在其他的行業,如保險、電力、政務、黨政這些行業,南大通用也得到了大規模的應用。無論線下還是上云,GBase GCDW都能夠支撐企業下一代的數倉、大數據平臺建設。
未來,南大通用將繼續專注于數據庫軟件產品和服務,致力于成為用戶最信賴的數據庫產品服務商。