導讀本文將分享網易書帆在指標中臺建設中的實踐。
主要圍繞以下四個方面展開:
1.網易書帆大資料產品介紹。
2.網易書帆指標平台。
3.指數中臺核心技術分析。
4.未來規劃與展望。
分享嘉賓:朱連新,網易書帆,指標中臺技術負責人。
編輯:李婷。
內容校對:李堯。
由社群 datafun 製作
網易書帆大資料產品介紹。
網易資料分析的發展歷程
自2024年以來,網易一直使用大資料技術元件,如分布式資料庫、分布式檔案系統、分布式搜尋引擎等,來支援網易網際網絡20時代的產品。 自2024年以來,他一直基於Hadoop構建資料分析和運維相關工作。 2024年推出猛獁象、網易等產品,加速了網易內部大資料的規模化應用。 針對眾多企業開展資料分析的需求,網易於2024年啟動了商用產品推廣,2024年資料中臺建設覆蓋網易燕選、考拉、**新聞等業務,形成了“全鏈路資料中臺”解決方案並面向社會發布。 2024年,網易提出“資料生產力”的概念,倡導“人人用資料,實時資料”。 2024年,《資料治理2》發布0“解決方案,2024年將發布新產品Chatbi,指標中臺。
網易在資料分析領域積累了豐富的技術、應用和解決方案經驗。
2.網易EasyData產品矩陣
網易擁有多個整體產品矩陣,自下而上,包括:
1)底層資料計算和儲存引擎的元件打包和研發,覆蓋HDFS S3、AMORO(實時資料湖)、YARN K8s、Spark、Hive、Impala、Flink等,構建自動化運維管理能力
2)基於DataOps全生命週期資料開發產品套件,涵蓋資料整合、資料開發、資料測試、任務運維等能力;
3)打造了資料標準、元資料管理、資料地圖、指標體系、資料質量、資料資產中心、模型設計中心、資料安全、資料服務等九大產品,滿足不同場景的開發管理需求
4)頂層有數字BI、機器學習習、標籤畫像,作為應用層挖掘大資料技術或平台的商業價值。
以上四層構成了網易易資料的產品能力矩陣,體現了產品的豐富性和完整性。
下面為大家詳細介紹指標體系,包括指標開發、治理、集市、應用等模組。
網易書帆指標平台。
1.為什麼要搭建指標中臺?
從內部實踐和外部溝通來看,指標使用中存在的問題主要集中在以下六個方面: 指標口徑不一致:約31%的常規資料質量問題統計涉及指標口徑;指標入口不統一:缺少乙個企業級統一的消費入口,不知道從哪裡找,也不知道口徑是否一致可信指標價值難以量化:指標使用難以跟蹤和量化,報表開發成本涉及儲存資源、計算資源、開發資源等多重投入指標開發效率低:指標開發涉及多部門、多角色協作,業務人員無法獨立完成,資料分析團隊成為指標開發瓶頸重複計算消耗大量資源:大量中間表冗餘、復用率低,涉及分層設計和處理指標質量差:問題溯源難,排查效率低由於處理路徑長,開發引入的問題有60%以上被發現,其中90%是由業務先發現。
針對指標應用的服務模式,商業客戶提出: 物化到業務庫:由於Hive源資料和下游應用庫屬於不同的團隊進行管理,客戶期望將指標中颱的處理結果具體化到下游業務系統庫指標目標管理:在指標計算的基礎上,客戶關注指標目標達成情況、相關指標進展情況等的最佳檢視,需要考慮指標業務目標的管理能力統一排程引擎:企業已經擁有成熟的排程平台,如Apache Dolphinscheduler等,可以方便指標上下游任務的統一管理,使計算依賴管理成為可能,加快指標的生成速度。
2.網易書帆指標中臺解決方案
網易DataFan指標中臺(EasyMetrics)介於資料中颱和下游資料應用(主要是BI)之間,提供指標標準化的能力。 使用“一次生成(多次使用)”,為業務決策和管理提供單一版本。
1. 可信資料**,解決長期存在的指標不一致問題。 指標中臺,建立在跨資料來源(目錄)的統一邏輯語義模型層之上,內建指標定義語言,提供獨立於第三方計算引擎和排程系統自動計算指標的能力,通過配置可以自動完成指標的開發,大大提高了指標開發效率。
如圖所示,網易書帆指標中臺解決方案位於中間平台和下游系統之間,資料經過指標平台處理後提供給下游系統應用。 邏輯語義模型層遮蔽了不同上游資料來源之間的差異,通過引入統一的語義層簡化了指標的定義,通過獨立的第三方引擎和排程,實現了指標開發、消費和管理的一體化服務平台能力。
指數中臺核心技術分析。
1.跨資料來源構建統一的邏輯語義模型層
統一邏輯語義模型層它是構建在資料倉儲和下游資料應用之間的獨立層,可以遮蔽不同的資料差異,統一對下游資料應用的響應。
如上圖所示,邏輯語義模型層主要包括事實表和維度表的關係,多事實表和維度表的關係可以在以下章節中找到邏輯語義模型層說明。 如客戶表、產品表、訂單表、銷售管理表等。 度量字段主要包括產品銷量、產品銷售額**等,包括客戶維度、產品型別維度、訂單屬性等維度。
邏輯語義模型層設計三大原則:遮蔽資料來源差異:不同資料來源的外掛程式擴充套件管理,搭建PF4j庫,實現可插拔外掛程式資料來源管理模組逆向建模:基於現有物理表DDL快速逆向建模邏輯資料模型物化DDL:建模後的邏輯資料模型可以正向生成物化DDL,方便物理表的生成。
2.構建簡潔高效的查詢語言進行指標分析
傳統 SQL 不支援像通用程式語言那樣的組合繼承等能力,因此在 SQL 編寫任務中往往存在大量冗餘**,而這些冗餘**往往會因為邏輯不一致而導致指標計算不一致。
我們引入指標分析查詢語言,簡化指標的定義、指標的組合和復用、時間口徑的定義等。
步驟 1:簡化指標定義
基於語義模型,無需定義from和join,自然支援多維度分析。 以下示例計算子類別下每個產品的總銷售額:左側是傳統的 SQL 實現,其中包含大量 From 部分右側為指標分析查詢語言實現指令碼,select指定計算邏輯,其中指定計算限額,by指定分組和彙總維度。
簡化後,只需指定口徑、極限、分組維度即可完成指標開發。 將指標定義還給業務,最大化實現業務使用者的自助開發,充分緩解資料分析師的開發壓力。
第 2 步:實現指標組合和重用
建立並儲存指標以為您的資料指定“基本事實分析”(即單個事實**),並且儲存的指標可以在其他指標中重複使用。
例如,在下圖中,某銀行的事實表中有兩個指標:“網路年齡1000元完成的橙色分期付款數量”和“今年網路年齡1000元的橙色分期目標數量”。 通過推導日期生成“今年淨齡1000元橙子完成分期數”指標,通過復合計算進一步實現“淨齡1000元橙子分期目標完成進度”指標的定義('')。
由於指標的靈活復用,指標定義的效率大大提高。
第 3 步:簡化時間口徑的定義
在正常模式下,需要頻繁開發基於 SQL 的時間週期邏輯,並在多個 SQL 之間重複編寫,容易出錯,不易動態調整。 通過引入時間段,時間口徑的定義自然而然地被簡化了。 通過內建和自定義的方法,可以實現多個時間口徑的定義和管理,包括對交易日曆等時間段的支援。 在句法上,時間維度字段可以對應乙個時間段來限制時間口徑,這在句法上是統一的,時間口徑也可以隨時間動態變化。
在定義指標時,往往需要包含時間口徑,我們可以通過簡單的語法直接使用時間口徑,從而實現時間口徑的統一,並支援前乙個交易日的時間段(交易日曆)等行業特徵,以滿足客戶特定的時間口徑需求。
在實現層面,指標分析查詢語言被定義為 antir4 格式的詞法檔案 (maqllexer.)g4、maqlparser.g4),它將度量、度量、屬性和維度週期定義為詞法單位。經過詞法分析、句法分析、語義分析,將指標分析查詢語言表示式和邏輯語義模型層轉化為metricSDL(統一指標查詢語義)。
目前平台已經支援:**g、count、sum等7種聚合函式;以及、OR、等10種邏輯運算函式;+、ABS等11種常用資料處理功能;直接使用時間段。 3.構建統一的指標查詢語義層
通過構建統一的指標查詢語義層metricsdsl,進一步抽象指標的查詢需求,在語義層實現指標依賴分解的工作,從而遮蔽不同底層資料來源的SQL語法差異,隔離不同指標查詢需求(不同語法)對底層資料來源的侵入和影響, 從而方便擴充套件不同的指標查詢語法,並與不同的資料來源目標對接。
基於方解石進行引擎SQL轉換,完成MetircSDL的解析
1)將邏輯模型和指標結果表資訊作為上下文,使用DSL轉換為Calcite Relnode語法樹
2)有選擇地使用rbo優化器對方解石relnode進行優化,形成優化語法樹
3)使用目標資料來源方言將Calcite Relnode翻譯成SQL,形成目標資料庫引擎SQL。
4.發動機解耦,與第三方發動機靈活對接
為了靈活對接第三方引擎,包括排程引擎、查詢引擎、計算引擎,我們通過適配元件完成引擎與排程的對接,基於抽象引擎的能力完成指標中臺核心能力的構建。
排程引擎適配,將排程服務管理能力抽象化到服務端根據排程引擎實現元件任務管理排程服務註冊後,從點開始執行,獲取指標查詢執行的計算外掛程式,在客戶端適配,將資訊轉換為相應的引數,完成排程適配。
在查詢能力和計算方面,也是類似的架構,將查詢和算力抽象化,如IMPALA、JDBC等元件,對接適配不同的計算元件,如Spark、JDBC、Flink等,完成計算。
未來規劃與展望。
未來,Datasail指標中颱將持續迭代,提供:深度指標應用場景:資料洞察、儀錶盤、KPI管理、指標圖譜等;對接更多BI系統,打通從生產到消費的完整環節支援更多資料來源,如 DORIS 等 MPP 資料來源訪問 AIGC 以實現基於自然語言的指標查詢。 謝謝!以上就是這次分享的全部內容,謝謝。
分享來賓。 introduction
我希望新的聯絡
網易舒凡。 指標中臺技術負責人。
從業十餘年,具有豐富的網際網絡業務系統建設和大資料平台架構經驗。 目前是網易航研標準建模、資料質量、標籤畫像、索引中臺相關系統的技術負責人。
在前幾期中推薦了高質量的文章。
過去推薦。 如何優化機器學習習異構硬體推理在小紅書推送搜尋場景下突破算力瓶頸!
如何看待大資料雲原生發展之路——觀看2023飛天大會。
**推薦跨領域、多目標估計與整合的實踐與思考。
小公尺指標體系建設與管理的最佳實踐。
推薦多工處理 2023 更新:基於使用者生命週期斯坦視角的多工推薦模型
混合儲存架構中的資料編排。
大型製造企業智慧型決策場景分析。
開放詞彙檢測 2023 年開放世界物體檢測大賽 優勝團隊分享。
騰訊PCG資料治理體系。
從大模型的角度進行因果推理。
提高大型模型分布式訓練效能的必要性(推薦10000字長篇文章合集)。
Volcano Engine Dataleap 計算治理自動化解決方案的實踐與思考。
知乎如何進行埋地平台的建設和公升級?
位元組跳動Spark Suffle大規模雲原生演進實踐。
最後,有人講解了使用者分析方面**。
超越中途?訓練基於上下文習 [前沿] 的影象擴散模型。
*推薦場景工具:整合複雜目標並支援實時控制的重排模型。
小公尺資料中臺建設實踐賦能業務增長!
datafun
點選乙個,看看你看起來最好。