星環科技。
本專案由星環科技投稿,參與“資料猿年度金猿策劃活動——2023大資料產業年度創新技術突破榜暨獎項”評選。
為了滿足日益增長的AI效能需求,需要不斷更新訓練樣本集,以訓練和更新AI模型。 研究人員不斷建立新的模型結構,提出新的模型訓練技術,使AI模型在特定領域的公共資料集上取得超越人類表現水平的結果,但在基於實際使用場景資料進行學習時,容易在不同的資料子集上產生偏差,導致缺乏公平性。
針對上述問題,可以根據模型訓練和線上模型部署過程中收集到的反饋對訓練樣本集進行調整,以保證高質量的訓練集。 常用的資料整形方法主要是資料增強,常見的資料增強方法有監督資料增強和無監督資料增強方法。 以影象資料為例,監督式資料增強方法包括基於幾何變換類和顏色變換類幾何變換類是對影象進行幾何變換,包括:翻轉、旋轉、裁剪、變形和縮放顏色轉換的資料增強功能,包括噪點、模糊、顏色轉換、擦除和填充。 無監督資料增強方法是通過模型學習資料的分布,隨機生成與訓練資料集分布一致的影象,代表性方法是生成對抗網路(GAN)。
然而,傳統的資料調整方法無法準確定位訓練樣本集中導致模型精度較差的訓練樣本,進而無法針對缺陷增強訓練樣本集,導致訓練樣本集的改進效率低下,無法保證模型的效能提公升效果。
星環科技創新的訓練樣本集資料增強技術,解決了現有資料處理方法無法準確定位訓練樣本集中的訓練樣本導致模型精度差,進而無法增強訓練樣本集的缺陷,導致訓練樣本集效率低下的問題,實現了對訓練樣本的精準定位,導致模型精度差,從而實現目標資料增強的準確定位。 提高訓練樣本集的資料增強效率,進而提公升模型的效能。
星環科技創新的訓練樣本集資料增強技術,是通過確定資料樣本集的歸因特徵集,並根據歸因特徵集中的歸因特徵,將資料樣本集劃分為至少兩個資料樣本子集根據資料樣本子集第一評價指標的數值對資料樣本子集進行分類,形成有推理誤差的誤差資料樣本子集和無推理誤差的正常資料樣本子集;根據歸因特徵對誤差資料樣本子集中每個誤差資料樣本子集的推理誤差的貢獻程度,從正常資料樣本子集中確定與誤差資料樣本子集對應的控制資料樣本子集;根據誤差資料樣本子集和控制資料樣本子集中各資料樣本的傾向得分,確定獲得資料增強的訓練樣本集,現有資料處理方法無法準確定位的訓練樣本集,導致模型精度差,進而無法針對缺陷對訓練樣本集進行增強, 從而實現訓練樣本集的改進效率低,實現定位準確的訓練樣本集和導致模型精度較差的訓練樣本進行有針對性的資料增強,提高訓練樣本集的資料增強效率,提高模型的效能。
該技術方案可利用資料集對分類器、回歸器等資料探勘工具進行訓練,提高訓練效果,並可用於特定精細化場景(如電力領域的負載**、金融風控資料處理領域的故障檢測或還款**)由於資料集質量較差或資料集過度集中, 在真實場景中處理不斷更新的資料時,很容易對資料進行部分更新** 根據歸因特徵對錯誤資料樣本推理誤差的貢獻,準確定位訓練樣本集中導致模型精度差的訓練樣本,然後對訓練樣本進行有針對性的資料增強, 從而提高訓練樣本集的資料增強效率,提高使用增強資料集訓練的訓練模型的效能。
例如,對於電力領域的負荷系統,負荷系統的資料樣本可能與負荷區域的地理位置、天氣條件、使用者結構和經濟發展有關,地理位置會影響天氣條件和經濟發展,地理位置與電力負荷有一定的因果關係, 但地理位置並不是造成電力負荷差異的直接原因,根據地理位置,電力負荷存在較大的推理誤差。因此,該技術方案可以根據歸因特徵對錯誤資料樣本推理誤差的貢獻,對訓練樣本集中導致模型精度較差的訓練樣本進行精準定位,進而對訓練樣本進行有針對性的資料增強,提高負載最高的訓練樣本集的資料增強效率, 並提高使用增強資料集訓練的負載 ** 模型的效能。
對於金融風控資料處理領域的貸款還款場景,貸款申請人的歸因特徵集可以包括:申請人的年齡、申請人的年收入、申請人的婚姻狀況。 利用該技術方案,根據歸因特徵對錯誤資料樣本推理誤差的貢獻,可以找出對錯誤資料樣本推理誤差貢獻最大的歸因特徵,從而定位訓練樣本集中導致模型精度差的訓練樣本, 然後對訓練樣本進行有針對性的資料增強,提高貸款還款訓練樣本集的資料增強效率,提高利用增強資料集訓練的貸款還款模型的效能。
專利申請號 公開號:zl202211173668.7
團隊負責人姓名:楊一帆
楊一帆現任星環科技副總裁。 他於2024年獲得中國科學技術大學學士學位,並在肯塔基大學獲得統計學博士學位。 他曾在美國銀行反洗錢部門和阿里巴巴搜尋部門的對抗情報團隊工作。 他目前在星環科技的人工智慧產品部門工作。 他擁有豐富的反洗錢和反作弊業務背景,以及統計學習、深度學習和圖計算方面的研究經驗。 主要研究領域為大資料基礎軟體、人工智慧、資料安全、私隱計算等。 《機器學習實踐》和《資料安全與流通:技術、架構與實踐》的作者。
團隊其他重要成員姓名:夏正勳、唐劍飛、張岩。
聯絡:星環科技。
星環科技(**688031)致力於打造企業級大資料基礎軟體,圍繞資料整合、儲存、治理、建模、分析、挖掘、流通等資料全生命週期提供基礎軟體和服務。 星環科技經過多年的自主研發,建立了一站式大資料基礎設施平台TDH、分布式分析資料庫ARGODB、容器化智慧型資料雲平台KunDB、大資料開發工具TDS、智慧型分析工具SOPHON等多個產品系列,並擁有多項專利技術。 目前,公司產品已應用於十幾個行業,終端使用者超過1400家。 2024年,公司成為中國首家進入Gartner資料倉儲和資料管理解決方案魔力象限的供應商,並被評為最具前瞻性的遠見者之一2024年和2024年,兩次被IDC評為中國大資料市場領導者2024年,星環科技成為全球首家通過TPC-DS測試和官方審計的資料庫廠商2024年被Gartner評為資料中颱和圖資料庫領域全球領先廠商,入選中國資料庫產品品類最大的廠商之一。 同年,成為全球首家通過TPCX-AI基準測試和官方審核的軟體廠商,單節點效能全球第一。 2024年10月,成功登陸上海證券交易所科創板。
基於星環科技大資料基礎設施平台TDH的高效能儲存和計算能力,對不同**、不同結構的資料進行清洗和處理,形成可直接用於模型訓練的高質量實景生產資料集。 模型訓練通過人工智慧平台Sophon進行,該平台整合了680多個現有行業模型,並在此基礎上使用圖形建模、引數調優等完善的訓練工具,輕鬆完成模型訓練和迭代。 在Sophon中訓練的模型可以無縫對接上層應用系統,使實驗結果能夠快速投入實際生產。
一所 985 工程大學。
基於星環科技的智慧型分析工具SOPHON結合資料集進行模型訓練,將影象和光流資訊進行融合,實現對行為工作的精準識別7、24小時對庫房現場進行監控,對明火、冒煙等危險情況及時預警;現場部署邊緣計算箱,統一接入遠端監控,解決倉庫管理人員操作行為記錄等人工巡檢、異常情況、效率低下等問題。
金融機構。