導讀本文將分享數信網路在金融資訊創新領域湖倉一體綜合資料平台架構中的實踐經驗。
本次分享主要分為以下五個部分:1.資料平台架構的演變。
2.金融資訊創新對資料平台的挑戰。
3.DataCyber,雲資料智慧型平台
4.金融資訊創新資料平台的落地路徑。
5.金融資訊創新資料平台實戰案例
分享嘉賓:袁攀峰,浙江數碼新網***CTO
馬新紅編輯。
內容校對:李耀。
由社群 datafun 製作
資料平台架構的演變。
大資料基礎設施的發展經歷了四個主要階段,每個階段都有里程碑式的技術進步,以滿足新的應用需求。
第 1 階段:資料倉儲。 現階段,資料平台主要用於支援分析處理(OLAP)和商業智慧型(BI)報表分析。 技術代表包括 Oracle 的共享儲存架構和 Teradata 的大規模並行處理架構。
第 2 階段:資料平台。 隨著大資料的興起,資料平台開始以大規模資料儲存和計算為特色,主要服務於流批處理計算場景。 這一階段的代表技術是Hadoop,它從早期的單一MapReduce計算引擎演變而來,支援多變數計算引擎2階段 0 能夠處理更複雜的資料分析需求。
第三階段:資料中心。 在技術上,資料中間平台延續了Hadoop等資料平台的相關技術,並整合了資料組織和變更管理,形成了更完整的資料服務能力。
第 4 階段:雲資料平台。 當前的雲資料平台基於雲原生架構,並提供雲資料倉儲等創新產品。 代表性產品包括 Snowflake 和 Databricks,它們支援雲上多租戶資源的自動縮放和按量付費計費。 從技術上講,現階段已經出現了流-批整合、湖倉一體、儲算分離等高階資料架構。
當前資料平台發展的第乙個重要趨勢是雲原生與大資料的結合。 此次組合形成了一種新型的資料平台架構,利用雲原生資源排程和儲存統一負載能力,充分發揮雲原生在資源利用、彈性排程計算、標準化部署公升級等方面的優勢。 這種架構不僅提高了資料處理效率,還增強了資料平台的靈活性和可擴充套件性,為企業提供更高效、更可靠的資料服務。
傳統的湖倉一體架構雖然可以處理多種資料型別,但由於資料冗餘儲存和資料傳輸依賴於ETL任務,存在資料時效性和一致性差的問題,同時增加了開發和運維的複雜性。
湖倉一體架構通過結合資料湖和資料倉儲的優勢,打造乙個整合、開放的資料處理平台,解決了這些問題。 該架構支援底層資料統一儲存和管理,實現湖倉一體間資料的高效排程和管理。 此外,還可以為業務層提供統一的查詢分析能力,提高資料的時效性和一致性,降低開發運維成本,為企業資料分析決策提供有力支撐。
第三個重要趨勢是儲存和計算的分離。 長期以來,Hadoop一直以一體化的儲存和計算架構提供大資料能力,但隨著內部網路頻寬的快速增長、資料規模的擴大以及資料湖技術的發展,大資料基礎設施正在向儲存和計算分離的架構演進。
儲算分離的核心是將Hadoop的資源排程紗線和儲存集群的HDFS分離,實現儲存和資源管理的解耦。 雖然這種方式增加了運維負擔,犧牲了一些本地讀取效能,但實踐經驗表明,這些損失是可控的,特別是對於擔心成本和私有化場景的客戶而言。
進入雲原生時代後,儲存和計算分離的架構變得更加多樣化。 底層儲存可以是 HDFS、S3 物件儲存等,而資源排程框架則完全擁抱 Kubernetes 進行資源排程和管理。 這種架構提供了更大的靈活性和可擴充套件性,有助於優化資源使用並降低成本,同時保持大資料平台的高效能和可靠性。
第四個趨勢是混合雲和資料雲。 隨著企業資料中心的日益普及,公共雲和私有雲的存在變得越來越普遍。 企業需要乙個平台來統一管理兩種雲上的資料中心,並確保資料跨雲的安全流動。
為了保證企業內部和企業之間的資料安全流動,需要採用資料沙盒和私隱計算等技術。 這些技術可以幫助解決不同企業之間的資料安全流動問題。 對於資料平台,支援多個租戶之間安全資料流的解決方案至關重要。
金融資訊創新對資料平台的挑戰。 接下來,在第二部分中,我們將重點關注金融資訊創新領域,分析資料平台面臨的挑戰。
“新創”是中國資訊科技應用創新的簡稱,其目標是推動IT產業鏈核心技術國產化,實現安全、自主、可控。 大資料元件的適配是資訊創新戰略的重要組成部分。 在金融行業,資訊創新的推進和實施正在加速,大資料元件的適配是當前面臨的重要挑戰。
大資料資訊創新的必要性主要體現在兩個方面:一是鼎暉等海外大資料平台產品的許可成本高,二是這些產品不能完全支援我國資訊化創新環境下的軟硬體。 因此,大資料元件的適配成為一項重要任務。
資訊創新的適應過程遠比簡單的開源技術遷移複雜得多。 首先,要逐一適配國產CPU晶元、作業系統、資料庫、雲平台。 完成此階段後,您需要解決版本衝突、依賴包衝突以及不同大資料元件之間的元件組合。 這就需要專業的大資料團隊,基於開源技術,經過編譯、彙編、打包、部署、測試等一系列流程,最終實現可以交付給客戶的生產環境的部署。
第二個挑戰是大資料元件的穩定性、效能和安全性。 為確保大資料元件在創新環境中的高可用性和穩定性,請執行以下步驟:
完全適配主流大資料計算、儲存和分析元件,確保它們在雲原生環境中平滑執行。
對適配元件的效能進行優化,解決新創環境與非新創環境的效能差異問題。
優化雲原生環境和儲存計算分離架構,滿足不同業務場景需求。
執行大規模效能測試和優化,以確保元件在實際部署中發揮作用。
同時,大資料平台的安全性也不容忽視。 平台安全需要從使用者管理、租戶管理、許可權管理、審計中心等多個維度進行保障。 這包括使 Kerberos 和 OpenLDAP 等安全元件適應資訊創新環境,以及多租戶系統、許可權系統和審計系統。 通過全面的安全措施,確保大資料平台在資訊創新環境中的安全。
第三個挑戰是大資料集群的遷移和混合部署。 這個過程是循序漸進的,涉及新舊集群的並行操作和過渡。 因此,有必要開發工具來支援異構環境中的集群資料遷移,並最大限度地利用現有舊集群中的伺服器資源。
為了有效復用原有資源,新創大資料平台需要具備多種混合部署能力。 這包括支援不同 CPU 架構、硬體規格和作業系統之間的混合部署。 這些要求對大資料的創新提出了更高的挑戰。
DataCyber,雲資料智慧型平台第三部分詳細介紹了DataCyber在金融資訊創新背景下自主研發的雲資料智慧型平台DataCyber的架構設計和相關實踐。
設計目標
在進入 DataCyber 技術架構之前,我們先先明確一下整個系統的設計目標。 該平台的主要設計目標是在國內資訊創新環境下打造乙個技術自主、可控的大資料平台。 同時,我們不追求從零開始開發大資料引擎,而是希望通過開源社群生態參與到大資料引擎新技術的建設中來,保證平台的開放性和相容性。
在技術選擇上,我們採用雲原生湖倉一體化架構。 該架構結合了雲原生和湖倉一體的技術優勢,實現了下一代雲資料智慧型平台。 我們也希望平台能夠實現資料+AI的融合,即資料平台與AI平台的對接,將兩個平台共同的技術元件抽象提取出來,打通賬戶租戶系統。
此外,整個平台基於多租戶系統進行設計。 需要確保租戶內部的隔離性和安全性,並支援租戶之間的開放資料共享。 這是資料平台的一項關鍵能力,尤其是在金融場景中,客戶需要通過不同企業實體之間的資料流通來分析和挖掘資料的價值。
建築設計
上圖展示了 DataCyber 的整體架構,DataCyber 是乙個開放的雲資料智慧型平台,旨在支援異構硬體環境,包括傳統的 x86 伺服器以及 ARM 和 MIPS 等新興 CPU 架構。 平台底層可以適配不同雲平台廠商的私有雲、混合雲等場景。
DataCyber 的產品矩陣從下到上分為幾層:
CyberEngine:提供湖倉一體引擎底座和大資料集群管理運維能力,為資料平台和AI平台提供基礎支撐。
網路資料:為開發者和使用者提供資料平台的一站式產品能力。
CyberAI:為開發者和使用者提供AI平台的一站式產品能力。
CyberMarket:負責資料模型和演算法應用在租戶之間的安全流通,以實現資料價值的最大化。
將詳細描述DataCyber每個元件的架構,展示如何利用這些元件實現智慧型資料處理和分析,以及如何在保證安全的同時促進不同租戶之間的資料共享和流通。
(1)cyberengine
首先,我們來介紹一下CyberEngine,這是乙個先進的大資料管理平台,旨在支援雲原生環境和傳統資料架構。 平台自下而上分為資源排程、資料儲存、資料引擎、管理平台四個層次。
在資源排程層,cyberEngine提供統一的資源管理,支援雲原生K8S排程和傳統YARN排程,幫助客戶平穩過渡到雲原生架構。 資料儲存層既支援傳統HDFS儲存、物件儲存,也支援新的資料湖格式,提供元資料服務、資料攝取、資料湖加速、管理等核心業務。 資料引擎層包括流式引擎、批處理引擎和互動式分析引擎,基於開源技術構建,形成高效能、高穩定性的大資料引擎發行版,滿足不同場景的需求。 此外,它還包括乙個統一資料整合引擎、乙個統一任務排程引擎、乙個統一元資料服務引擎和乙個統一 SQL 引擎,以支援 CyberData 和 CyberAI 平台。 管理平台由EngineManager產品組成,提供一站式大資料集群規劃、部署、運維管理,目標是成為智慧型高效的大資料技術基礎設施管理平台,服務於企業內部的大資料管理和運維人員。
CyberEngine的功能包括:完全雲原生、多租戶和多集群管理,以及全面的發布、配置、管理、運營和審計能力; 支援主流大資料元件版本,包括計算儲存元件、資料湖引擎、分析引擎等,在穩定性和效能上均優於開源元件。 支援大規模部署和管理。
(2)cyberdata
Cyberdata是一站式大資料智慧型研發治理平台,模組化、可插拔,可拆分為不同的子產品,滿足不同需求。 這些子產品包括資料建模、資料整合、資料開發和運營、資料資產治理、資料安全、資料服務等。 平台支援多種湖倉架構,包括離線數倉、實時數倉、流批一體化資料倉、湖倉一體化架構,滿足內部數倉工程師、資料分析工程師、資料管理人員的需求。
Cyberdata是一種雲原生技術架構,可以部署在多雲環境中,支援跨多個環境、區域和集群的大規模企業應用。 在資訊創新方向上,Cyberdata不僅支援多種資訊創新軟硬體環境,還可以接入本地化的資料庫和資料來源,並將業務資料採集到平台進行處理和分析。
CyberData的核心能力包括統一的元資料管理、資料整合能力和資料開發任務的工作流排程,所有這些都由CyberEngine產品的四大核心服務引擎提供支援。
(3)cyberai
CyberAI 是乙個一站式機器學習平台,旨在為演算法工程師、資料科學家和資料分析師提供服務。 平台首先強調底層基礎設施的管理和接入能力,基於CyberEngine提供的統一服務基礎引擎的接入能力。 通過這種方式,CyberAI能夠有效地管理資源和資料訪問。
此外,CyberAI平台與CyberData資料平台無縫協作。 這種整合能力體現在租戶賬號體系和資料來源的訪問和管理上,實現了真正的整合能力。
在產品化能力方面,CyberAI平台不僅支援傳統的互動和視覺化建模能力,還為企業間資料流轉場景提供演算法沙箱和聯邦學習支援,實現跨租戶資料流轉和演算法訓練。 此外,該平台還整合了大型模型工具的相關能力,使用者可以在該平台上一站式完成大型模型應用的構建過程。
(4)產品輸出形式
DataCyber 是乙個雲資料智慧型平台,展示了其產品的高度開源開放性。 DataCyber 的三大主要產品,CyberEngine、Cyberdata 和 CyberAI,都可以單獨輸出,並與其他開源元件和大資料分析資料庫保持最大的相容性。 這些產品支援CDH CDP本地化替代、大資料基礎建設、資料開發治理、通過外掛程式和標準化實現機器學習框架整合等多種場景。
網路引擎:作為大資料基地,可以接入主流大資料元件,適合從零開始構建大資料平台,如銀行CDH替換。
網路資料:使用標準化外掛程式接入大資料庫,快速支援開源、商業、雲原生集群的資料開發和治理,適用於構建各種企業級資料平台。
CyberAI:作為一站式機器學習平台,以外掛程式方式整合TensorFlow、PyTorch等框架,適用於私有雲企業機器學習平台等場景。
產品之間的組合輸出也提供了更多的可能性,例如:
CyberEngine + Cyberdata:構建大資料基礎+一站式DataOps平台的組合,如雲原生湖倉一體平台。 CyberEngine + CyberAI:構建大資料AI基礎+一站式MLOPS平台組合的能力。 Cyberdata + CyberAI:構建乙個整合的數字智慧型平台,該平台可以在產品功能方面與 Databricks 和 Snowflake 進行基準測試。 在雲上輸出湖倉一體平台,CyberEngine+Cyberdata+CyberAI:提供大資料AI基礎、DataOps平台、MLOPS平台一站式組合,輸出雲原生彈性湖倉一體平台,滿足客戶多樣化的應用場景。
核心技術元件
讓我們來看看 DataCyber 的一些核心技術元件。
第乙個是Cyberlakehouse,這是乙個結合了資訊創新環境和雲原生技術的湖倉一體。 在資訊化和創新環境下進行全棧適配,從基礎硬體到作業系統再到產業生態,保障大資料元件的國產化和適配。 在此基礎上,實現基於容器化的大資料元件的標準化發布流程和原始碼適配,支援雲原生部署。 再往上是湖倉一體架構,它需要儲存-計算分離、開放儲存、計算元件的靈活擴充套件以及統一和標準化的元資料服務。
基於這些需求,Cyberlakehouse 架構分為三層:
儲存層:提供統一的儲存和HDFS格式支援,以及資料訪問層的加速。 接入層加速包括Alluxio等快取加速和Celeborn等服務,提公升了存算分離架構下的訪問穩定性和效能。
計算層:基於雲原生資源排程(K8S),支援批處理(Hive Spark)、流處理(Flink)、互動分析(Starrocks Presto Impala)引擎。
管理層:提供集群規劃、管理、實施、部署、運維監控的一站式運營平台。
這些技術元件共同構成了DataCyber的湖倉一體平台,為大資料運維管理者提供一站式運營平台,支援多種計算元件和儲存格式,確保高效能和靈活性。
上圖說明了 DataCyber 的 Cyberlakehouse 在研發過程中對開源大資料元件的大量二次開發和適配。 目前已全面適配批處理引擎 Hive 和 Spark、流計算引擎 Flink、互動式分析引擎 Impala 和 Presto。 主要工作成果包括:
Hive:解決了 Hive 對更高版本的 Hadoop、K8S、資料湖元件和資料快取系統的適配問題。
Spark:適配 Spark 之前版本的 Hadoop3,以及 Spark on Hive 和 Spark on K8S 的部署能力,並支援彈性伸縮。
Flink:支援 Flink 在 K8s 上的彈性部署,對 Flink 的會話集群進行資源彈性管理的二次開發,實現作業的自動擴縮容。
資料湖整合:整合Hudi、派蒙等資料湖引擎。
分析引擎:定製化 Impala 和 Kudu 的二次開發適配,解決 Impala 在雲原生環境下的部署問題,支援老 CDH 使用者平滑公升級。
安全性:解決Kerberos、Ranger和OpenLDAP的整合問題,為金融級客戶的安全需求提供解決方案。
由於這些改編和開發工作,最新版本的 CyberEngine 23.0已經擁有超過CDH的元件覆蓋率,在元件版本上優於舊版本的CDH,實現了產品化的輸出。
Cybermeta是大資料平台的核心技術元件,實現了湖倉一體元資料跨平台的統一管理,主動發現外部資料來源的元資料,以及元資料在多個計算引擎之間的互聯互通。 此外,它還支援跨多變數計算場景的資料湖統一資料許可權管理和自動優化加速。
為了滿足多變數異構大資料計算引擎的元資料需求,統一元資料服務引擎支援兩種模式:
與 Hive 元儲存整合:通過 Hive 的標準化元資料能力,為不同的分析計算引擎提供元資料管理和服務。
基於 Spark 和 Flink 的自定義目錄擴縮容機制:擴充套件支援更廣泛的資料來源元資料管理能力,使 Spark 和 Flink 引擎能夠訪問關係型資料庫,實現湖倉一體資料來源的跨源資料訪問。
Cyberscheduler是大資料平台的另乙個核心技術元件,負責資料倉儲任務的工作流排程,保證任務的高效執行和資料流的穩定性。 CyberScheduler 的架構分為三層:
Web 服務和排程器 API 層:為使用者提供排程任務的介面。
協調器集群:分布式排程系統,負責生成作業例項並根據工作流依賴進行排程,並提供基於API服務的介面。 它強調服務的穩定性、高併發性和低延遲。
工作執行緒集群:執行不同型別的作業,包括本地執行並遠端提交到 Hadoop 和 K8S 等平台的任務。 它側重於任務可伸縮性和資源隔離。
CyberScheduler 支援多種作業型別,支援定期排程、靈活依賴、資料回填、斷點重啟等功能。 可適配不同任務規模的湖倉一體場景,支援從10萬到1000萬以上的任務排程,通過統一的架構和不同的部署模式適應不同的客戶需求,實現穩定的排程和運維。
此外,CyberScheduler支援智慧型排程監控,根據歷史資料優化任務排程資源,提供任務輸出時間和告警的智慧型提示,從而提高排程效率和任務成功率。
CyberIntegration是統一的資料整合引擎,是乙個多合一的資料同步平台。 平台支援DataX、Spark、Flink三種主要資料同步引擎。 這些引擎可以處理多種資料同步需求,包括批量同步、流式同步、全量同步、增量同步和全量資料庫同步。
Cyberintegration的系統架構允許它根據資料來源的規模動態確定所需的資源和同步能力,並支援水平擴充套件。 此外,考慮到平台需要支援公有雲、私有雲和混合雲架構,還需要解決資料整合過程中跨網段資料傳輸的技術挑戰。 這種靈活性和強大的資料處理能力使 CyberIntegration 成為滿足各種資料整合需求的有效解決方案。
CyberMarket 是資料分發中心,專注於解決跨租戶資料流通問題。 CyberMarket支援多種開放資料共享方式,包括資料API、資料應用、資料沙箱和演算法沙箱等,後者允許資料在不同租戶之間可用和不可見,特別適合金融等行業場景。
資料沙盒通過物理隔離的儲存和多租戶之間的隔離來確保資料安全。 在計算層面,SQL沙箱和演算法沙箱提供了安全的資料分析和挖掘環境。 資料進入計算沙箱後,只能在沙箱內安全使用,計算結果需經資料所有者批准後方可匯出。 沙箱使用後,會有相關的**和安全機制。
CyberData和CyberAI之間的協作也是關鍵,例如,在CyberAI平台中訓練的模型被發布到CyberData平台,用於工作流編排和排程資料開發和模型訓練任務。 該能力使整個平台能夠在資料流場景中提供全面的支援。
金融資訊創新資料平台的落地路徑。
第四部分將金融資訊創新資料平台的典型落地路徑分為六個階段:
構建統一管理平台:首先,構建統一的管理平台,統一使用者體驗,保證資訊化和創新切換過程中的順利管理和遷移。
業務場景選擇與試點規劃:根據客戶實際情況,選擇合適的業務場景進行系統化試點,規劃資訊創新集群。
湖倉一體資源規劃:設計和規劃湖倉一體集群,包括計算、儲存、網路等資源,以滿足業務需求。
資料遷移與校驗:新新創集群部署完成後,對新舊集群資料進行遷移,對資料進行比對校驗。
壓力測試與優化:根據資料量和業務需求,對資訊創新集群進行壓力測試和優化。
分步切換和驗證:在確保新集群滿足效能和穩定性要求後,新舊集群並行執行,完成集群切換。
這條路徑保證了金融資訊創新資料平台的高效實施和平穩過渡,滿足客戶的業務需求。
在金融資訊創新資料平台的實施中,上圖中大資料集群統一管理平台的功能技術架構是關鍵。 其中,大資料集群統一管理平台包括新舊兩大集群,在資源排程和元件使用方面存在差異。 中間層負責資料遷移,統一管理層通過不同的驅動包實現驅動對接和管理不同型別的底層大資料集群。 頂層是應用層,本文將不再詳細討論。 這種架構可以保證金融資訊創新資料平台的高效推廣,在不影響客戶業務穩定性的情況下,實現金融資訊創新資料平台的穩定替代。
金融資訊創新資料平台實戰案例 在金融資訊化創新領域,新網在雲資料智慧型平台落地方面取得了顯著成效。 本文的第五部分將通過兩個案例研究來展示新網路的實際成果。
第乙個案例涉及一家股份制銀行,該銀行正在使用Cloudera的CDH產品,並面臨高昂的訂閱成本和不遵守資訊創新要求的問題。 數信網路提供的雲原生大資料管理平台CyberEngine,已成功幫助銀行將多個資料集群公升級為資訊創新的湖倉一體架構。 這不僅提高了平台的自主性和可控性,還優化了元件版本公升級和計算資源效率,為客戶帶來了全面的平台提公升和價值提公升。
二是省級金融綜合服務平台建設運營。 樹信網路雲資料智慧型平台利用大資料和雲計算技術,實現多個龍頭部門和銀行資料的統一融合分析,解決金融領域資料使用問題。 新網路提供資料平台cyberdata和智慧型平台cyberAI,助力構建金融主題庫和金融資料倉儲,覆蓋從資料開發、治理到AI任務開發的全流程。 此外,為保證資料的合法合規共享,樹信網路還提供資料沙箱和演算法沙箱能力。 最後,在業務層面,新網路輸出適合金融領域的資料應用,為金融綜合服務平台提供全面的資料智慧型解決方案。
以上就是這次分享的全部內容,謝謝。
分享客人
前山頂
浙江數字新網***
cto
北京航空航天大學電腦科學碩士,10年以上大資料及私隱計算行業研發經驗,國內外發明專利15項。
曾任阿里巴巴集團大資料平台高階技術專家,阿里巴巴皇家餐廳、阿里雲數字Plus、DataWorks創始團隊核心負責人,0-1完成了阿里雲私隱保護計算平台Data-Trust產品的開發和商業化。