GBase新聞
哈工大(深圳)-南大通用云數據庫研究中心舉辦成果展 共助國產數據庫發展
2021年11月4日,由哈爾濱工業大學(深圳)、天津南大通用數據技術股份有限公司和深圳市計算機學會主辦,哈工大(深圳)-南大通用云數據庫研究中心承辦的“國產數據庫產學研合作交流暨哈工大(深圳)-南大通用云數據庫研究中心成果展示會”于深圳博林天瑞喜來登酒店成功舉辦。
此次成果展示會對哈工大(深圳)-南大通用云數據庫研究中心近一年的工作進行了總結,報告了研究中心的研究現狀、已經取得的研究成果和未來工作期望。同時,會議還邀請了多位來自學術界和產業界的數據庫專家進行了國產數據庫相關主題的技術報告。
五十余位專家及代表參加了此次會議,主要嘉賓包括:
哈爾濱工業大學(深圳)科技處處長,趙軼杰
國家杰出青年基金獲得者、中國計算機學會“王選獎”獲得者、國家973計劃項目首席科學家、哈爾濱工業大學計算機科學與技術學院教授,李建中教授
廣東省計算機學會副理事長、深圳計算機學會理事長、哈工大計算學部副主任、哈工大(深圳)-南大通用云數據庫研究中心主任、哈爾濱工業大學(深圳)計算機科學與技術學院院長,王軒教授
南大通用數據技術股份有限公司高級副總裁、CTO,趙偉
深圳市計算機學會數據科學與工程專委會主任、深圳大學特聘教授、深圳計算科學研究院研究科學家,秦建斌教授
深圳市計算機學會數據科學與工程專委會副主任、南方科技大學計算機科學與工程系助理教授,唐博
中國計算機學會信息存儲專委會委員、中國計算機學會系統軟件專委會委員、哈工大(深圳)-南大通用云數據庫研究中心委員、哈爾濱工業大學(深圳)計算機科學與技術學院副教授,夏文
南大通用數據技術股份有限公司數據智能產品經營部總經理,張紹勇
南大通用數據技術股份有限公司數據管理產品經營部產品部經理,李世輝
南大通用數據技術股份有限公司華南區技術經理,蘇遠昌
南大通用數據技術股份有限公司華南區總經理,張玉芝
哈工大(深圳)-南大通用云數據庫研究中心副主任、南大通用總工辦主任,楊偉偉
哈工大(深圳)-南大通用云數據庫研究中心副主任、深圳市計算機學會數據科學與工程專委會委員、哈爾濱工業大學(深圳)計算機科學與技術學院助理教授,劉洋
哈工大(深圳)-南大通用云數據庫研究中心委員、哈爾濱工業大學(深圳)計算機科學與技術學院助理教授,漆舒漢
會議伊始,哈爾濱工業大學(深圳)科技處趙軼杰處長代表學校領導,向校企合作取得的階段性成果表示了誠摯的祝賀。趙軼杰處長提到,哈工大(深圳)今年科研經費已達8.2億元,2021年全年預計能達到10億元,學校繼續保持著工科領域的產學研用領先優勢。在當前的時代背景下,工業界與學術界需要緊密合作。哈工大(深圳)-南大通用聯合研究中心長期深耕數據庫領域,共同致力于打造國產數據庫這一國之重器。在雙方的共同努力下,一定會繼續為校企合作培養英才做出新貢獻。
南大通用CTO趙偉代表公司領導,對聯合研究中心從科研成果到工程化落地的工作給予了極大的肯定。他表示,數據庫關系理論和新數據管理技術離不開學術界研究,公司將繼續支持聯合研究中心的科研項目推進。同時,他也對研究中心的研究成果轉化提出了更高要求,希望哈工大(深圳)與南大通用的產學研用合作能進一步助力于基礎信息產業高質量發展,加快數據庫基礎技術的攻關。
深圳市計算機學會數據科學與工程專委會主任秦建斌教授代表學會專委會為本次活動致辭。他對專委會在關系型數據庫、數據治理、隱私計算、AI+DB等方向的研究進行了介紹。他表示將繼續推動加強高校與企業的合作,加大產學研用中的人才培養,在產學研用方面為整體產業做出貢獻。
隨后,國家973計劃項目首席科學家、哈爾濱工業大學計算機科學與技術學院李建中教授做了題為《數據可用性的計算理論與高效算法》的大會主題報告。
在報告中,李建中教授從“數據一致性”、“數據精確性”、“數據完整性”、“數據時效性”和“數據統一性”這五個度量維度介紹了數據可用性的基本概念。李建中教授在報告中提到,數據的低可用性會對物理世界帶來了巨大影響。例如:全球財務1000強公司中25%以上的關鍵數據存在錯誤;中國某城市的3600多萬條社保記錄中有450萬條記錄存在錯誤。此外,數據低可用性也使得采用AI技術進行的數據挖掘結果的可靠性得不到充足的保障。
李建中教授表示,無論具有多么大的數據,無論大數據計算的理論和技術多么完美,如果不能確保數據可用性,大數據就可能產生錯誤結果,甚至災難性結果。以此為背景,李建中教授進一步介紹了數據可用性的若干研究問題。其中,重要的研究問題包括:數據可用性的表達機理、數據可用性的判定理論、數據錯誤的檢測與修復、若可用數據上的近似計算、數據高質量獲取理論和技術等。
針對上述問題,李建中教授團隊在國際頂級期刊和會議中發表了學術論文數十篇,構建了數據可用性管理系統,建立了具有數據可用性表達、數據可用性判定、數據錯誤檢測修復、弱可用數據近似計算、數據高質量獲取等功能的原型系統。該系統在中國某城市8億條社保數據上進行了應用,使數據準確率由75%提高到90%,數據完整性由71%提升到95%,數據一致性由83%提升到100%,數據時效由78%提升到87%。未來,李建中教授還會繼續探索降低問題計算復雜性的新方法學,拓展弱可用數據的近似計算理論。
深圳市計算機學會數據科學與工程專委會副主任唐博助理教授做了題為《面向異構計算硬件的大數據查詢處理和加速技術》的主題報告。 報告中,唐博老師結合新型硬件對數據庫系統帶來的挑戰和機遇,分享了其團隊在數據庫系統的可觀察性、查詢優化以及硬件感知的執行引擎三個方面的研究工作,介紹了系統原型的具體功能和測試效果,最后通過分析現有技術的不足,展望了架構異構硬件感知的數據管理系統的挑戰和難點。
茶歇過后,哈工大(深圳)-南大通用云數據庫研究中心委員夏文副教授以《面向GBase日志的高效差量壓縮技術研究》為主題,進行了云數據庫研究中心成果匯報。
夏文老師主要介紹了研究中心在數據去重壓縮等領域的研究工作基礎和積累,以及針對南大通用日志存儲研究的差量壓縮算法,多項研究成果發表在數據存儲和壓縮領域的國際頂會頂刊,并申請了多項專利。他提到,在2021年暑假期間,研究中心兩名同學赴天津參與GBase業務場景實測,與相關技術人員反復論證測試,在業務場景驗證合成成果的差量壓縮算法在GBase邏輯日志壓縮率超過60%,通過減少日志數據的寫操作將執行和同步用時縮短了約1%。這說明研究中心的差量壓縮算法,在顯著提升壓縮率的同時,并沒有增加日志存儲吞吐和時延方面的開銷,仍維持了GBase日志存儲的高性能業務要求,最終實現了又快又好的存儲GBase海量數據的目標。
目前該工作作為研究中心的第一階段研究的階段性成果已經進入GBase工程化版本階段。夏文老師表示,下一階段的工作 ,將圍繞數據庫備份場景存在的海量數據存儲需求,將研究中心的數據去重壓縮成果也用于推動GBase在這一場景的存儲效率提升,實現更高質量的合作共贏。
隨后,南大通用張紹勇總經理、李世輝經理和蘇遠昌經理也分別就 “GBase 8a MPP的市場地位、產品優勢、關鍵技術、典型案例”、‘“GBase 8s V8.8護航核心交易”和“南大通用在分布式事務型數據庫的實踐”等研究進展和成果進行了匯報。
分布式分析型數據管理系統GBase 8a是面向大數據分析類應用領域的一款高性能國產新型數據庫產品,用于滿足數據密集型行業日益增大的數據查詢、數據統計、數據分析、數據挖掘和數據備份等需求,可用做數據倉庫系統、BI系統和決策支持系統的承載數據庫。GBase 8a MPP沖上TPC-DS世界榜單,節點數量最少,單節點算力最高,加載性能最優,更是通過國內最大規模MPP集群測試(4096節點)。打造的中國農業銀行總行大數據平臺,榮獲中國人民銀行頒發的2017年度銀行科技發展獎一等獎、已部署2000+節點、管理超過20PB數據,穩定運行超過 2000天。
交易型數據管理系統GBase 8s是天津南大通用數據技術股份有限公司自主研發的、成熟穩定的企業級分布式事務型數據庫,擁有自主知識產權,并且具備兩高三低的特性:跨入第三代,守護每筆交易的高可靠性;兩地三中心,持續服務保障的高可用性;自動遷移工具,PL/SQL直接使用可降低遷移成本;一體機模式,統一運管平臺降低運維成本;全棧國產生態,打破國外壟斷降低采購成本。該產品打造的某地方性商業銀行核心系統:備份耗時由原來2小時以上縮短到20分鐘以內;解決恢復表的不可用性,解決大表無法插入數據;實現數據分離存儲,大表數據分片存儲于不同空間,提升性能;實現配置優化,表鎖粒度、索引,配置參數等優化,提高并發性能。
分布式交易型數據管理系統GBase 8c是一款 shared nothing架構的分布式交易型數據庫集群,具備高性能、高可用、彈性伸縮、高安全性等特性,可以部署在物理機、虛擬機、容器、私有云和公有云,為關鍵行業核心系統、互聯網業務系統和政企業務系統提供安全、穩定、可靠的數據存儲和管理服務。目前已滿分通過信通院分布式事務型數據庫評測。
在各位專家的成果展示和技術匯報順利結束后,深圳計算機學會理事長、哈工大(深圳)-南大通用云數據庫研究中心主任、哈爾濱工業大學(深圳)計算機科學與技術學院院長王軒教授為會議做了總結致辭。王軒教授表示,在云數據庫研究中心成立的一年多的時間中,校企雙方發揮各自的長處,充分利用研究中心作為雙方合作的窗口、新技術科研成果的中試基地和產業化基地的作用,真正實現了產、學、研之間的無縫對接,提高了核心技術研究和產業化的高效性。聯合研究中心應專注卡脖子技術打造國產數據庫這一國之重器,繼續為國家信創基礎產業做出貢獻。
未來,云數據庫研究中心也將持續堅持以哈爾濱工業大學(深圳)計算機科學與技術學院的科研力量來推動南大數據技術股份有限公司的業務發展;同時以南大通用數據技術股份有限公司的需求為導向,充分利用哈工大的人才與科技優勢,南大通用在數據庫領域的領先技術和經驗優勢,支持和推動聯合研究中心在相關核心技術方面的研究和積累,以國產數據庫這一國之重器為數字化時代中國數據資產的本質安全提供保障,深耕研究,繼續勇創佳績。
關于哈工大(深圳)-南大通用云數據庫研究中心
哈爾濱工業大學(深圳)計算機科學與技術學院與天津南大通用數據技術股份有限公司進行深度合作,與2020年9月1日成立“哈工大(深圳)-南大通用云數據庫研究中心”。該中心有助于促進南大通用與哈爾濱工業大學(深圳)在互利互惠、共同發展基礎上的合作伙伴關系,實現產、學、研緊密結合。同時,雙方在云數據庫技術等領域優先開展技術戰略咨詢、技術創新、新產品研制、人才培養等方面的長期合作。此外,還將提煉實施技術項目的合作開發,實現項目技術產業化。
研究中心第一階段對數據庫參數智能優化技術、數據庫列存數據壓縮方法、數據庫智能安全審計技術等多個課題方向展開研究。
(1) 數據庫參數智能優化技術
參數優化是數據庫優化的重要手段,而數據庫參數之多也增加了參數調優的難度。大數據時代下,面對不斷膨脹的數據信息、復雜多樣的應用場景、異構的硬件架構和參差不齊的用戶使用水平,傳統數據庫技術調參很難適應這些新的場景和變化。基于機器學習的智能數據庫配置技術因其較強的學習能力,能夠有效提升數據庫參數調節的效率。該方向針對數據庫參數智能優化技術進行研究,利用人工智能技術對不同業務數據庫實例完成自動配置,同時權衡性能和成本。
(2) 數據庫列存數據壓縮方法
在信息技術高速發展的海量信息時代,海量數據管理技術已經成為社會信息化的迫切任務。如何有效地存儲和管理海量數據并高效地支持海量數據上的查詢,對數據庫管理系統提出了嚴峻的挑戰。海量數據庫最大的特點是存在大量的數據冗余,即相同的數據在不同的地方多次重復出現。該方向從南大通用Gbase數據庫邏輯日志差量壓縮的角度入手,通過輕量高效的Ddelta差量壓縮算法壓縮日志內前后鏡像,節省大表修改時邏輯日志所占空間。該研究目前已進入產品工程化階段,預計可節省40%的日志存儲空間。
(3) 數據庫智能安全審計技術
數據庫作為業務平臺信息技術的核心和基礎,承載著越來越多的關鍵數據,其安全性也越來越重要。數據庫審計技術能夠實時記錄網絡上的訪問數據庫行為,對數據庫操作進行細粒度審計。除此之外,數據庫審計還能對數據庫遭受到的風險行為進行告警,如:數據庫漏洞攻擊、SQL注入攻擊、高危風險操作等。該方向針對數據庫審計技術進行研究,通過滿足國家信息安全等級保護的安全審計系統抵御來自內部人員日益增多的安全威脅,通過智能、全面的數據安全方案進行漏洞掃描,阻止數據丟失,進行數據隱私保護。
未來,云數據庫研究中心將成為雙方合作的窗口和新技術科研成果的中試基地和產業化基地。以哈爾濱工業大學(深圳)計算機科學與技術學院的科研力量來推動南大數據技術股份有限公司的業務發展;同時以南大通用數據技術股份有限公司的需求為導向,支持和推動云數據庫研究中心在相關核心技術方面的研究和積累,以國產數據庫這一國之重器為數字化時代中國數據資產的本質安全提供保障。