伴隨著5G、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術的飛速發(fā)展,各行各業(yè)的業(yè)務場景日益復雜,數(shù)據(jù)呈現(xiàn)出大規(guī)模、多樣性的特點,特別是非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長態(tài)勢。企業(yè)對數(shù)據(jù)庫技術的需求不再局限于結(jié)構(gòu)化的OLTP數(shù)據(jù)交易,而是需要進一步擴展到對多樣化數(shù)據(jù)進行實時處理的場景。傳統(tǒng)的數(shù)據(jù)湖在事務一致性及實時處理方面有所欠缺,而數(shù)據(jù)倉庫也無法應對高并發(fā)、多數(shù)據(jù)類型的處理,因此,支持事務一致性、提供高并發(fā)實時處理及分析能力的湖倉一體架構(gòu)應運而生。湖倉一體架構(gòu)在成本、靈活性、統(tǒng)一數(shù)據(jù)存儲、多元數(shù)據(jù)分析等多方面具備優(yōu)勢,正逐步轉(zhuǎn)化為下一代數(shù)據(jù)管理系統(tǒng)的核心競爭力。
湖倉一體是一種新型的開放式架構(gòu),打通了數(shù)據(jù)倉庫和數(shù)據(jù)湖,將數(shù)據(jù)倉庫的高性能及管理能力與數(shù)據(jù)湖的靈活性融合了起來,底層支持多種數(shù)據(jù)類型并存,能實現(xiàn)數(shù)據(jù)間的相互共享,上層可以通過統(tǒng)一封裝的接口進行訪問,可同時支持實時查詢和分析,為企業(yè)進行數(shù)據(jù)治理帶來了更多的便利性。湖倉一體可在數(shù)據(jù)入湖后原地進行數(shù)據(jù)處理與分析,能有效避免數(shù)據(jù)冗余及流動導致的算力、網(wǎng)絡及成本開銷,可以作為超大型ODS存儲貼源數(shù)據(jù),實現(xiàn)全量數(shù)據(jù)的實時處理。
湖倉一體架構(gòu)在數(shù)據(jù)管理中主要具有以下幾大關鍵特征:
一是支持分析多種類型數(shù)據(jù)。湖倉一體架構(gòu)可為多應用程序提供數(shù)據(jù)的入庫、轉(zhuǎn)換、分析和訪問。數(shù)據(jù)類型包括結(jié)構(gòu)化與非結(jié)構(gòu)化類型,如文本、圖像、視頻、音頻等,以及半結(jié)構(gòu)化數(shù)據(jù),如JSON等。
二是數(shù)據(jù)可治理,避免產(chǎn)生數(shù)據(jù)沼澤。湖倉一體架構(gòu)可以支持各類數(shù)據(jù)模型的實現(xiàn)和轉(zhuǎn)變,支持DW模式架構(gòu),例如星型模型、雪花模型等,可保證數(shù)據(jù)的完整性,同時具有健全的治理和審計機制,能夠避免數(shù)據(jù)沼澤現(xiàn)象的出現(xiàn)。
三是事務支持。在企業(yè)中,數(shù)據(jù)庫往往要為業(yè)務系統(tǒng)提供并發(fā)的數(shù)據(jù)讀取和寫入。湖倉一體架構(gòu)對事務ACID的支持,可確保并發(fā)訪問,尤其是SQL訪問模式下的數(shù)據(jù)一致性、正確性。
四是BI支持。湖倉一體支持直接在源數(shù)據(jù)上使用BI工具,這樣可以提高分析效率,降低數(shù)據(jù)延時。另外,相比于在數(shù)據(jù)湖和數(shù)據(jù)倉庫中分別操作兩個副本的方式,湖倉一體更具成本優(yōu)勢。
五是存算分離。湖倉一體采用存算分離架構(gòu),可使系統(tǒng)能夠擴展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量,能滿足新時代對于分布式數(shù)據(jù)架構(gòu)的要求。
六是開放性。湖倉一體采用開放、標準化的存儲格式(例如行存、列存、塊存),能提供豐富的API支持。因此,各種工具和引擎(包括機器學習和Python/R庫)可以高效地對數(shù)據(jù)進行直接訪問。
從落地性來看,湖倉一體技術架構(gòu)落地目前有三種方式:
第一個融合方向是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉庫能力擴展,湖中建倉,從數(shù)據(jù)湖進化到湖倉一體。湖倉一體結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫特點,直接在用于數(shù)據(jù)湖的低成本存儲上實現(xiàn)與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。目前主要有Netflix等開源企業(yè)在探索此技術路線。
第二個是基于自身云平臺或第三方對象存儲(如OSS、S3、Ceph等),基于Hadoop或自研技術進行湖倉一體能力的搭建。探索此技術路線的通常是各大云廠商,如AWS、阿里云、華為云等。
第三個融合方向是以數(shù)據(jù)庫技術為基礎,自研分布式平臺,從調(diào)度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署使用的能力。技術方向上更注重于實時高并發(fā)場景及非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)治理,并逐步向更廣泛的分析場景發(fā)展,主要廠商以Snowflakes、Databricks、巨杉數(shù)據(jù)庫等為代表。
三個技術方向均是廠商依托自身技術優(yōu)勢進行的架構(gòu)融合,均有自身優(yōu)劣勢及技術特性,能夠滿足不同場景下的客戶需求。
同時,本報告指出了湖倉一體架構(gòu)未來的發(fā)展趨勢:一是隨著企業(yè)對海量大數(shù)據(jù)的實時處理需求越來越迫切,湖倉一體架構(gòu)將成為越來越多用戶的主流選擇,助力各行各業(yè)數(shù)字化轉(zhuǎn)型;二是以人為軸的數(shù)據(jù)開發(fā)和優(yōu)化,將越來越難以滿足企業(yè)實際需求,屆時人工智能技術將介入數(shù)據(jù)庫的自動調(diào)優(yōu)、自動整理過程,助力提升湖倉一體架構(gòu)的智能化。
在報告的最后,賽迪顧問對用戶和廠商提出了一些發(fā)展建議。對用戶而言,要重視專業(yè)化服務能力和成功案例的可移植性,選擇適合自身情況的數(shù)據(jù)管理產(chǎn)品。對廠商而言,要重視研發(fā)投入,加快產(chǎn)品與新興技術融合,同時不斷提高專業(yè)化服務水平,重視實施與交付能力的提升。
關于巨杉數(shù)據(jù)庫
在此次報告中,巨杉數(shù)據(jù)庫作為湖倉一體典型廠商入選。基于湖倉一體的架構(gòu)特性,巨杉數(shù)據(jù)庫可構(gòu)建數(shù)據(jù)基礎設施平臺,整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲與管理,為面向全量數(shù)據(jù)業(yè)務提供:SQL、NoSQL、Object等多種接口。此外,通過特有的跨引擎事務能力,可以有效簡化多團隊開發(fā)流程中對不同引擎、不同結(jié)構(gòu)的數(shù)據(jù)管理,打通ACID事務支持,提升業(yè)務開發(fā)、數(shù)據(jù)處理、運維管理能力,釋放全量數(shù)據(jù)價值,提升企業(yè)數(shù)據(jù)處理的“人效”及“能效”。目前,巨杉數(shù)據(jù)庫已經(jīng)在超過100家金融銀行客戶規(guī)模化上線使用,全面覆蓋國有銀行、股份制銀行、省級農(nóng)信、城商行、保險、證券等金融客戶。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關鍵詞: