案例背景
客戶為河北省一家具有獨立法人的國有控股城市商業銀行,機構網點遍布市縣,資產千億在河北省城市商業銀行中名列前茅。
隨著“數字銀行”的推進,資料的內在價值挖掘成為金融業務創新的驅動力,因此包括大型國有銀行、股份制銀行和龍頭城市商業銀行在內的大多數銀行都在研究、規劃和構建大資料系統。 該行還在2024年推出了大資料平台,大大提公升了其資料處理和資料分析能力。
隨著客戶新一代核心和信用系統的推出,依賴大資料平台的資料處理和分析需求也在不斷擴大,平台源資料日增量超過50G,這給大資料平台源資料的儲存壓力日益增加, 現有大資料集群的儲存空間佔據了近80%。由於現有大資料平台的儲存和負載已經不堪重負,該銀行提出了乙個專案,以構建乙個新的大資料來源層。
需求分析
該行計畫依託現有大資料平台架構,提公升源層全資料的應用和管理能力,為源頭構建一套完整、系統的資料需求識別分析及服務流程,按需提供資料,規避系統業務執行風險。
新模組主要滿足銀行對歷史資料的歸檔、儲存、分析和查詢等需求。 通過構建分布式計算和儲存系統,可以提高對全量(包括結構化、半結構化和非結構化)源歷史資料的分析和挖掘能力,有效降低資料儲存和計算成本。
方案設計
根據需求和現狀,在架構邏輯層面將方案設計分為資料來源、資料平台、資料應用、前端門戶。 資料來源從審批、採集、核心系統等主要業務系統同步到大資料平台。 大資料平台將資料整合,向資料倉儲、關係資料集市和資料探勘市場提供資料,一些特殊的應用由大資料平台直接支援,其餘的資料探勘工具、立方體、管理駕駛艙和報表平台由資料倉儲和市場支援。 前端門戶支援銀行內外使用者的資料探勘、多維度分析、報表查詢、即席查詢等功能,以及一些特定的分析應用。
基於大資料平台現有架構體系,在旁路構建完整、系統的大資料來源層。 源層承擔大資料平台的全歷史資料(儲存時間在5年以上的資料),以及未來線下系統的所有資料,不僅為資料倉儲和集市提供支援,還提供基於大資料儲存的冷熱詳細資料查詢和應用, 如憑證明細資料查詢,資料量超過1000萬。
鑑於現有大資料平台的儲存和複雜性已經不堪重負,新建的源層採用儲存計算分離和開放資料儲存,不僅允許源層按需擴充套件,還為Hadoop生態中的海量應用提供了支撐, 不影響原有平台。
測試選擇
從現狀和需求出發,對客戶選擇偶數產品和解決方案進行了徹底的調查和驗證,從銀行POC流程在功能、效能、相容性等方面的成功通過中可以看出。 1.功能測試
通過17項功能測試,包括:資料型別、檢視管理、索引能力、臨時表建立、DML、主流功能匹配、多種儲存型別、資料隨機分布、事務、多語言UDF、雲原生功能等。
2.效能測試
在TPC-H測試中,實現了千兆頻寬下100G資料的最大讀寫傳輸,實現了海量資料的即席查詢和超過6億條資料的增刪修改。
3.相容性測試
相容多種介面和工具,包括JDBC、ODBC介面、第三方操作工具、BI工具、排程工具等。
4. 場景測試
在與現有大資料平台和資料倉儲相同的場景下,批量執行,展現了海量資料的極致吞吐量和快速響應。
基於此次測試表現,偶數技術的產品得到了銀行領導的一致認可,成為銀行構建大資料來源層的最佳選擇。
在與銀行現有技術架構相容的前提下,新建源層以OushuDB為核心構建,資料訪問模式同時支援ETL和訊息佇列,提供可擴充套件、可配置的資料訪問表單,支援多種資料來源(包括但不限於文字、關係型資料庫、 等)。
支援資源和服務的動態擴充套件可根據使用者需求快速搭建資料介面,實現高速快速交付支援水平線性擴充套件、集群部署和系統監控。
提供對外服務介面,支援與銀行對接,為上下游系統提供資料查詢介面,支援單次查詢、批量查詢、非同步查詢等多種形式,如支援計數器系統併發流查詢、報表系統併發報表查詢等。
專案實施
專案在銀行的實施分為遷移、訪問、應用、排程和分析幾個部分。
1. 遷移離線系統的歷史資料
將已下線的系統資料從大資料平台的HIVE資料庫中遷移出來進行檢查和歸檔。
2. **業務源系統資料接入
對於資料儲存和查詢,設計了資料檔案的儲存策略,將業務系統的資料儲存在資料庫中並分層,以保證資料的完整性。
根據資料使用場景,為業務系統的狀態表和流表設計資料生命週期管理方案。
根據資料生命週期管理計畫,在資料庫中制定資料清理策略,資料檔案永久儲存。
一期完成核心系統、信用管理系統、網際網絡信用系統、渠道整合平台、財富管理銷售系統、客戶資訊管理系統(ECIF)、總賬系統等7個系統的資料來源接入,新建企業網銀、新型電子票務系統2個系統,累計上千張第二階段接入業務系統50餘台,表總數超過900臺。
3. 歷史資料查詢平台支援
實現與銀行現有歷史資料查詢平台的對接,通過現有歷史資料查詢平台查詢總賬會計憑證查詢和明細賬戶頁面查詢。
4、統一排程平台對接
通過批量執行、監控、統計等方式,完成與銀行現有排程平台的對接,實現統一排程、規範化管理。
任務執行批處理
在排程平台上增加和修改批量執行任務,設定批量執行任務的觸發方式。
任務監控
監控批量執行任務,記錄開始時間、結束時間、任務總數、成功次數、失敗次數。
任務統計
統計歷史執行時間,如平均執行時間。
5. 資料處理日誌分析
通過資料載入時長分析、批量執行時長分析、資料查詢行為分析,準確完成整個遷移、訪問、排程過程。
此外,我們還對該行內部反洗錢、事後監管、對賬、資金劃轉定價、會計記賬、第三方對賬系統、境外交易資料上報等重要業務系統進行了調研,確認在整個專案實施過程中對重要業務系統沒有影響。
施工成果
基於oushudb的源層從根本上緩解了銀行大資料平台可能面臨的儲存和服務壓力,新的源資料規範了資料儲存和應用流程,補充和完善了銀行的資料架構體系。 從戰略層面看,專案的實施形成並鞏固了以下重要能力:1. 實現開源資料的應用能力
基於開放儲存,新的源層可以原生支援Hadoop生態中的大量應用,不依賴或影響原有平台。 幫助銀行基於完整的歷史源資料,構建資料探勘、實時分析、機器習等前沿資料應用。
2. 構建高階湖倉一體整合基礎能力
大資料平台歷史源資料遷移後,關鍵業務系統的源資料與大資料平台並行管理,形成完全支援現有資料和歷史資料的資料平台底座。 開始承接報表應用等來自資料倉儲、大資料平台的資料應用,說明基於oushudb構建的源層完全具備相容湖倉儲存和應用的能力,未來進一步實現資料湖倉一體化架構。
3、形成國內資訊化創新平台的整合創新能力
在現有國內大資料平台的基礎上,進一步引進關係型資料庫(如oushudb)、資料分析軟體、資料應用軟體等領域的國產資訊化創新產品,實現技術成果共享、優勢互補,消除銀行資料庫的不確定性。
4、提前布局資料資產要素創新能力
通過運用創新資料軟體,對本行源資料資源進行全面盤點整理,將標準資料、基礎資料、整合資料、衍生資料、資料產品資料等內容納入資料資產管理範圍,形成企業級統一資料資產目錄,推動資料資產元素化程序。