中新賽克技術。
該技術由中新賽克交付,並參與“資料猿年度金猿策劃活動——2023大資料產業年度創新技術突破榜暨獎項”評選。
設計並實現了一種基於詞嵌入的文字分類訓練樣本增強方法。 該技術所述的基於詞嵌入的文字分類訓練樣本富集方法發明了一種類,該類利用現有樣本資料在現有樣本中自動高效地豐富樣本量較小的類。 該方法的主要創新點是:首先,在已有的訓練樣本中,通過使用文字外的詞語進行擴充套件,使得新樣本中的詞語表達更加豐富; 二是利用k-最近鄰文字分類對基於詞嵌入生成的候選樣本進行篩選,剔除不相關和錯誤的候選訓練樣本,大概率獲得可用的訓練樣本,從而達到擴充套件訓練樣本的目的。
該技術的應用價值在於緩解了簡單樣本富集效果不理想的問題,改進了分類器演算法。 文字分類是乙個典型的監督學習問題,監督學習面臨的主要問題之一是需要通過大量手動標記的訓練樣本進行學習。 然而,在實踐中,獲取標註訓練樣本通常需要大量的人力物力,這就是所謂的“標註瓶頸”。 因此,監督學習可以獲取的標記訓練樣本數量往往有限,這表現在訓練樣本數量有限,訓練樣本中包含的資訊不足。 由於訓練樣本數量有限(數量和分布資訊有限)不能很好地表徵資料的整體分布特徵,因此學習分類器的泛化能力較差,這就是所謂的“小樣本”問題。 這種技術是解決這個“小樣本”問題的有效方法。
該技術可廣泛應用於各種文字分類任務中,從而提高分類的準確率。 分類任務包括但不限於:情緒分類、新聞主題分類、垃圾郵件過濾、產品評論分類、聊天意圖分類、健康疾病分類、政治傾向分類、法律文件分類等。
本技術具體實施方式的詳細步驟如下:
第一步是獲取小樣本關鍵詞,構建小樣本關鍵詞集合。 如圖 1 所示,文字分類訓練樣本集分為小樣本類和非小樣本類。 小樣本類通過關鍵字抽取獲取關鍵字集。 本實施例中,獲取關鍵字的方法採用positionrank演算法。 PositionRank的關鍵詞提取演算法類似於TextRank演算法,它基於PageRank的圖關係來計算單詞的分數。 重要性分數用於表示單詞,其公式如下:
其中描述阻尼係數,通常設定為 075;w表示圖邊的權重,即單詞之間的相似度; 指示單詞的所有傳出邊緣的權重之和。 乙個單詞的初始分數與單詞在文字中的位置成反比,與單詞的頻率成正比:
假設單詞 v 出現在文字的第 2、3 和 8 位,則 =1 2+1 3+1 8。
如圖2所示,經過文字分割後,得到A、B、C、D、E、F六個單詞,A、B、C、D、E、F的權重分別排在positionrank演算法之後。 047,然後從文字中選擇3個關鍵詞,得到前3個關鍵詞:b、c、f。 在實現中,每個文字選擇的關鍵詞數量與文字本身的長度有關,f(n)用於表示文字需要選擇的關鍵詞數量,其表示式如下:
第二步,從非小樣本類的所有文字標記中隨機抽取一半的單詞,從小樣本關鍵詞集中隨機抽取相應數量的單詞,替換非小樣本文字中提取的單詞,形成新的片段。 分詞演算法由中科院ICTCLAS中文分詞系統實現。
在第三步中,使用文字相似度計算新段和已知訓練樣本的 k 最近鄰。 採用DSSM模型計算兩篇文章的相似度。 DSSM(Deep Structured Semantic Models)的原理是通過搜尋引擎中查詢和標題的海量點選日誌,使用DNN(深度神經網路)將查詢和標題表示為低維語義向量,通過余弦距離計算兩個語義向量之間的距離,最後訓練語義相似度模型, 不僅可以利用兩個句子的語義相似度,還可以得到乙個句子的低緯度語義向量表達。
如圖 3 所示 k 最近鄰演算法對新段進行分類,訓練樣本集包括 1 類、2 類和 3 類 3 類,當 k=5 時,與待分類的新段最相似的前 5 個類是 1 類、1 類、1 類、2 類和 3 類, 要分類的新段是 1 類,因為 1 類的數量最多。在實現中,k 的數量與小樣本量有關,並且設定了 k =,其中是乙個超引數,它是憑經驗設定的,表示下限捨入,例如。
第四步,篩選出k最近鄰分類後分類為小樣本類的新片段,並與文字分類訓練樣本集合並,形成擴充套件的訓練樣本集。
圖 1:豐富文字分類訓練樣本的過程。
圖2 基於PositionRank演算法的關鍵詞提取
圖3 k-最近鄰演算法對新線段進行分類。
專利申請號 公開號:zl 2019 11119076.5
團隊負責人姓名:盧云川
中新賽克副總裁兼大資料產品線總經理盧云川。 清華大學碩士,高階工程師,現任中新賽克大資料產品總經理,中國資料庫專業委員會委員,中國網際網路安全威脅治理聯盟成員單位負責人,南京市人工智慧行業協會副會長。 深耕電信、大資料、人工智慧領域20餘年,擁有智財權5項,主持和參與國家242資訊保安工程、江蘇省戰略性新興工程等省部級科技專案 8項。
團隊其他重要成員姓名:張全、卓克秋。
聯絡:Oceanmind,中新賽車。
南京中興科技有限公司(以下簡稱中新賽克)成立於2024年,前身為中興通訊子公司,現由深圳市創新投資集團控股。 公司於2024年002024年在深圳證券交易所上市。
Oceanmind是中新賽克旗下的大資料作業系統品牌。 在行業內,海拉迪斯創新性地提出系統化、線上化的資料建設解決方案,重新定義企業資料工程,提供業務驅動、線上化、視覺化、無縫銜接的資料化建設服務,即資料建設諮詢、成果落地、應用建設、資料管理一站式解決方案,成功解決了企業諮詢計畫實施難的四大難題, 諮詢成果執行難、資料應用建設難、資料系統執行難,為企業數位化轉型保駕護航。同時提供資料中臺、智慧型資料倉儲、主資料管理、指標管理平台和行業大資料業務分析應用,緊跟企業運營管理業務場景,深化運營狀態、運營流程、運營風控視覺化理念,打造企業運營管理數位化解決方案, 持續助力企業數位化轉型。
中新賽克基於AI的審計檔案挖掘利用系統,解決了我們一直以來難以應用電子審計檔案和檔案價值的問題,大大提高了我們海量存量檔案的使用效率,在行業內形成了良好的示範效應。
聊城市審計局.
宋新昌,電子資料科科長。
Sinovatio Hirith的智慧型搜尋功能創新性地為全域性資料和資料的搜尋增加了自然語義能力,使我們能夠基於實體元素高效提取原本分散在多個系統中的資料,並自動生成報表,大大減少了我們人員收集和編譯資料的工作量。
中國能源建設江蘇省電力設計院.
IT 經理 Piquan Huang。