隨著大資料與金融服務的結合越來越緊密,能夠通過風險模型從海量資料中挖掘盡可能多的信用資訊,並管理和維護海量變數變得非常重要。 為此,鑫業科技近日自主研發並推出了玄策變數開發與管理平台(以下簡稱“玄策平台”),通過變數原子化、統一管理、多重保障,提高變數資料的交付效率,提供統一的變數管理和資料監控。
目前,Xuance平台總計託管 2000+ 變數組任務共30,000+變數為模型任務提供了近 1,000 個變數表並通過資料監控功能,多次阻止錯誤資料進入下游,確保生產資料的質量和穩定性。
資料探勘的三大痛點和障礙
在平台啟動之前,資料探勘者需要開發乙個 hive 表,用於儲存模型任務要讀取的變數。 這時,經常會出現sql**太長、變數重複開發、新增變數過程繁瑣等問題。 這些問題也相互增加,使它們更難開發和維護。
sql** 太長
模型任務的變數比較複雜,比如使用者維度模型,其輸入表可能包含使用者使用資訊、投訴反饋資訊、第三方資訊等多個主題的變數,往往需要從多個底層表中計算出來,導致SQL很長。
可變的重複性開發
不同的模型任務需要同一部分變數,這些變數的**會同時存在於多個SQL任務中。 一旦這些變數的邏輯發生了變化,每個包含這部分**的任務都需要迭代和改變,很難保證不會錯過。
新增變數的過程很麻煩
如果模型需要新增變數,則需要在對應的變數表中新增欄位並修改 SQL 語句。 如果原SQL語句中讀取的表無法計算出新新增的字段,則需要聯接其他字段。 經過多次迭代,任務量越來越大,執行時間難以控制,給優化帶來了很大的難度。
擺脫變數開發約束的三個技巧
旭策離線變數統一管理平台通過變數原子化、統一管理、多重保障三個方面,幫助分析師更輕鬆地開發、維護和管理變數。
軒策平台資料流程圖。
可變霧化
Xuance 平台支援解析標準 SQL,將其轉換為 Multi Insert SQL,並將其寫入 Xuance 平台的可變儲存層。 使用時,可以自由組合變數生成乙個 hive 表供模型任務讀取。 這消除了資料探勘者開發冗長的 SQL 以將來自多個主題的變數混合到單個表中的需要。
資料探勘器基於軒策平台,可以通過為不同主題的變數 SQL 語句建立變數組並將它們組合在一起您可以輕鬆獲取模型任務所需的變數表完成。 當您需要對變數表進行新增或刪除變數時,只需在頁面上進行操作,平台會自動修改表結構。 當變數邏輯發生變化時,只需要修改變數組任務中的SQL語句,應用層的資料也會發生變化。 這不僅提高了變數開發的效率,而且大大降低了變數資料的維護成本。
統一管理
公司基於炫策平台開發的變數任務,提供任務告警、資源分析、血緣分析、資料自動清洗歸檔、定期巡檢、快速阻塞重啟任務等管理方式,幫助分析師操作和管理變數任務,任務由平台統一排程,支援高優先順序任務排隊執行, 提高集群資源利用率和SLA達成率。
保證多樣性
在風控模型中,如果變數波動較大,模型生成的資料可能不合理,可能會影響業務決策。 為此,軒策平台提供:PSI監控功能監控變數分布的差異,一旦資料異常,下游任務就卡住,防止資料汙染。 此外,還提供任務監控、強規則校驗、任務基線、任務看板等手段,保障變數任務的穩定執行。
通過其獨特的設計,變數開發管理平台可以滿足模型團隊高效變數開發迭代的場景需求,為商業模式探索、企業運營和業務決策提供堅實有力的平台支撐。