大模特時代,南洋理工大學的周志華潛心學術工作,最新論文首發

Mondo 科學 更新 2024-02-03

由機器之心報告。

編輯:Egg Sauce、Du Wei

機器學習在許多領域都取得了巨大的成功,大量高質量的機器學習模型正在開發中。 但與此同時,對於普通使用者來說,要獲得適合他們任務的模型並不容易,更不用說從頭開始構建乙個新模型了。 南京大學周志華教授提出的Learnware正規化,通過模型+規範的思想,構建了Learnware市場(現稱為Learnware基礎系統),允許使用者根據自己的需求統一選擇和部署模型。 如今,學術軟體正規化迎來了第乙個開源基礎平台——北明武。

在經典的機器學習正規化中,為一項新任務從頭開始訓練乙個高效能模型需要大量的高質量資料、專家經驗和計算資源,這無疑是費時、費力、成本高昂的。 此外,復用現有模型還存在許多問題,例如難以使特定的訓練模型適應不同的環境,以及在逐步改進訓練模型的過程中可能出現災難性遺忘。

不僅如此,資料私隱和所有權問題還阻礙了開發人員之間的經驗共享,並限制了大型模型在許多資料敏感場景中發揮作用的能力。 事實上,大多數研究都是針對這些問題單獨進行的,而且大多數問題在實踐中往往同時發生並相互作用。

此外,在自然語言處理和計算機視覺領域取得顯著成就的主流大規模模型開發正規化並沒有解決上述問題。 由於計畫外任務和場景的無限性、環境的千變萬化、災難性的遺忘、極高的資源需求、私隱問題、本地化部署的需要以及個性化和定製化的需求,為每個潛在任務構建乙個大模型顯然是不切實際的。

面對這些問題,南京大學周志華教授在2016年提出了學習軟體的概念,並利用一種新的正規化,基於學習軟體求解機器學習任務。 此外,Learnware正規化首次提出建立乙個基礎平台——Dock系統,以容納全球開發者自發提交的機器學習模型,然後根據潛在使用者的任務需求,利用模型能力解決新的任務。

工件正規化的核心設計是,對於來自不同任務的任意結構的高質量模型,工件是乙個統一的基本單元,其中包含模型本身和描述模型特徵的規範。 願意分享的開發者可以自由提交模型,Hardware Dock 系統協助生成協議形成學習片段並儲存在 Learning Dock 中,讓開發者在這個過程中不需要向 Hardware Dock 透露自己的訓練資料。 未來,使用者可以向學習軟體基礎系統提交需求,借助學習軟體系統,通過搜尋和復用學習部分來解決自己的機器學習任務,使用者不能向學習軟體系統透露自己的資料。

為了建立學術軟體正規化的初步科研平台,周志華教授團隊近日構建了北明武,這是第乙個用於未來工件正規化研究的開源工件基座系統。相關**已經出版,長達37頁。

從技術角度來看,得益於可擴充套件的系統和引擎架構設計、廣泛的工程實現和優化、全流程基線演算法的整合、演算法基礎評估場景的構建,北英武系統不僅為未來學習軟體相關演算法和系統的研究提供了基礎,也為託管大量學習軟體、建立學習軟體、建立學習軟體提供了可能性。學習軟體生態系統。

*書名:北明武:乙個學習軟體擴充套件塢系統

*位址:北冥界主頁:

北明塢開源倉庫:

核心引擎開源儲存庫:

在本文中,研究人員的貢獻可以總結如下:

基於學習正規化,為使用者解決新任務簡化模型開發:資料高效,無需專業知識,原始資料不洩露;

提出了一種完整、統一、可擴充套件的系統引擎架構設計。

開發了具有統一使用者介面的開源學術軟體基礎系統;

不同場景的全流程基線演算法的實現與評估。

工件正規化概述

Learnware正規化由周志華教授團隊於2016年提出,並於2024年在《學習軟體:小模型做大》中進行了總結和進一步設計。 下面的圖 1 說明了此正規化的簡化流程:對於任何型別和結構的高質量機器學習模型,其開發人員或所有者都可以自發地將經過訓練的模型提交到 Artifact Pedestal System(以前稱為 Artifact Marketplace)。

如上所述,工件正規化提出建立乙個工件基座系統,統一容納、組織和利用現有表現良好的模型,從而統一利用所有社群的努力來解決新的使用者任務,並潛在地解決一些大家同時關心的重大問題,包括缺乏訓練資料和訓練技能, 災難性遺忘、難以實現持續學習、開放世界中的資料私隱或專有、計畫外的新任務,以及重複浪費培訓造成的碳排放。

最近,正規化及其核心思想越來越受到關注。 但關鍵問題和主要挑戰是:鑑於工件基座系統可以容納數千甚至數百萬個模型,您如何識別和選擇對新使用者任務最有幫助的乙個或多個工件組? 顯然,將使用者資料直接提交到系統中進行實驗是昂貴的,並且會洩露使用者的原始資料。

學術正規化的核心設計在於規範,最近的研究主要基於簡化核均值嵌入(rkme)協議。

雖然現有的理論和實證分析研究已經證明了基於協議的工件識別的有效性,但工件基礎系統的實現仍然缺失,面臨巨大挑戰,這需要基於協議的新型模式設計來應對各種真實世界的任務和模型,並根據使用者的任務需求統一搜尋和復用大量工件。

研究人員構建了第乙個工件基礎系統 North Dock,以支援整個過程,包括提交、可用性測試、組織、管理、識別、部署和工件重用。

使用 North Dock 解決學習任務

基於學習物件正規化的首次系統實現,Beiyingwu大大簡化了為新任務構建機器學習模型的過程。 現在,我們可以按照工件正規化的流程構建模型。 並得益於統一的學習結構、統一的架構設計和統一的使用者介面,北興武所有提交的模型都實現了統一識別和復用。

令人振奮的是,給定乙個新的使用者任務,如果 Underwood 擁有可以解決此任務的工件,使用者只需幾行**即可輕鬆獲取並在其中部署高質量的模型,而無需大量資料和專業知識,也不會洩露自己的原始資料。

下面的圖 2 是使用 North Underwood 解決學習任務的示例。

下面的圖 3 說明了使用 North Dock 的整個工作流程,包括統計協議生成、工件識別、載入和重用。 基於工程實現和統一的介面設計,每個步驟都可以用一行鍵**實現。

據研究人員介紹,在求解學習任務時,基於北英武的學習物件正規化的模型開發過程具有以下顯著優勢:

它不需要大量的資料和計算資源;

不需要重要的機器學習專業知識;

為各種模型提供系統。

1.簡單的本地部署;

私隱保護:不洩露使用者的原始資料。

目前,早期基於開源資料集構建的學術工件只有1100個,覆蓋的場景數量較少,處理大量特定和看不見的場景的能力仍然有限。 基於可擴充套件的架構設計,北英武可作為學術物件正規化的研究平台,為學術物件相關研究提供便捷的演算法實現和實驗設計。

同時,依託基礎實現和可擴充套件架構支援,學術工件的不斷提交和演算法的不斷改進,將不斷增強系統解決任務的能力,增強系統復用現有訓練有素的模型來解決超出開發者原有目標的新任務的能力。 未來,學習基地系統的不斷演進,將使其能夠響應越來越多的使用者任務,而不會出現災難性的遺忘,自然而然地實現終身學習。

北冥界設計

*第 4 部分描述了北哈迪斯系統的設計。 如圖 4 所示,該系統由四層組成:工件儲存、系統引擎、系統後端和使用者介面。 本節首先對每一層進行概述,然後介紹基於規範設計的系統的核心引擎,最後介紹系統中實現的演算法。

讓我們從每個樓層的概述開始:

學習物件儲存層。在北碼頭,工件以壓縮包的形式儲存。 這些軟體包主要包括四類檔案:模型檔案、規範檔案、模型執行環境依賴檔案和學術配置檔案。

這些專案包由專案資料庫集中管理。 資料庫中的工件表儲存關鍵資訊,包括工件 ID、儲存路徑和工件狀態(例如未驗證和已驗證)。 該資料庫為北英武後續核心引擎提供統一的介面,用於訪問學習片段資訊。

此外,可以使用SQLite(開發和實驗室環境的簡單設定)或PostgreSQL(建議在生產環境中進行穩定部署)來構建資料庫,兩者都使用相同的介面。

核心引擎層。為了保持《北冥世界》的簡潔性和結構性,作者將核心元件和演算法與大量的工程細節分開。 這些提取的元件現在以 Python 包的形式提供,這是 North Underworld 的核心引擎。

作為系統的核心,該引擎涵蓋了工件正規化中的所有流程,包括工件提交、可用性測試、組織、識別、部署和復用。 它獨立於後端和前台執行,為工件相關任務和研究實驗提供全面的演算法介面。

此外,規範是引擎的核心元件,它從語義和統計的角度表示每個模型,並連線學習系統的所有重要元件。 除了開發人員提交模型時生成的規範外,引擎還可以利用系統知識為工件生成新的系統規範,從而增強工件的管理並進一步表徵其功能。

與現有的模型管理平台(如Hugging Face)相比,Hugging Face被動地收集和託管模型,允許使用者自己決定哪些模型能夠做什麼以及與任務的相關性,而Underworld使用其引擎通過新的系統架構主動管理學習工件。 這種主動管理並不侷限於收集和儲存,系統根據協議組織工件,可以根據使用者的任務需求匹配相關工件,並提供相應的工件復用和部署方式。

核心模組的設計如下:

系統的後端層。為了實現北英武的穩定部署,筆者在核心引擎層的基礎上開發了系統後台。 通過多模組的設計和大量的工程開發,北營武目前具備了穩定部署的能力,為前端和客戶端提供了統一的後端應用介面。

為了保證系統的高效穩定執行,筆者在系統的後端層進行了多項工程優化,包括非同步學習物件校驗、跨多個後端節點的高併發、介面級許可權管理、後端資料庫讀寫分離、系統資料自動備份等。

使用者介面層。為了方便北英武使用者使用,作者開發了相應的使用者介面層,包括基於Web的瀏覽器前端和命令列客戶端。

基於 Web 的前端提供使用者和管理員版本,具有各種使用者互動和系統管理頁面。 此外,它還支援多節點部署,以便順利訪問北碼頭系統。

命令列客戶端與學習 python 包整合。 通過呼叫相應的介面,使用者可以通過前端呼叫後端API,訪問學習軟體的相關模組和演算法。

實驗評估

在第 5 節中,作者構建了各種型別的基本實驗場景,以評估用於規範生成、偽影識別和多路復用的基準演算法。

資料實驗

在各種資料集上,作者首先評估了識別和重用與工件系統中使用者任務具有相同特徵空間的工件的效能。 此外,由於**任務通常來自不同的特徵空間,因此作者還評估了來自不同特徵空間的工件的識別和重用。

同質案例。 在同構情況下,PFS 資料集中的 53 個儲存充當 53 個唯一使用者。 每個商店都利用自己的測試資料作為使用者任務資料,並採用統一的功能工程方法。 然後,這些使用者可以在基本系統中搜尋與其任務具有相同特徵空間的同類工件。

當使用者沒有注釋資料或注釋資料數量有限時,作者比較了不同的基準演算法,所有使用者的平均損失如圖 6 所示。 左表顯示,無資料方法比從市場上隨機選擇和部署一塊要好得多; 右圖顯示,當使用者的訓練資料有限時,識別和復用單個或多個工件比使用者的自訓練模型更好。

異質性案例。 根據市場上學習部分與使用者任務的相似性,異構案例可以進一步劃分為不同的功能專案和不同的任務場景。

不同的特徵工程場景:圖 7 左側顯示的結果表明,即使使用者缺少注釋資料,系統中的工件也能表現出強大的效能,尤其是重用多個工件的 **erageensemble 方法。

不同的任務場景。 圖 7 顯示了使用者訓練模型的損失曲線和右側的幾種工件重用方法。 顯然,在使用者標註資料量有限的情況下,對異構片段進行實驗驗證是有益的,有助於更好地與使用者的特徵空間對齊。

影象和文字資料實驗

此外,作者還在影象資料集上對系統進行了基本評估。

圖 8 顯示,當使用者面臨稀缺的注釋資料或只有有限數量的資料(少於 2000 個例項)時,Artifact Pedestal System 可以產生良好的效能。

最後,作者在基線文字資料集上對系統進行了基本評估。 使用統一的特徵提取器執行特徵空間對齊。

結果如圖 9 所示,同樣,即使沒有注釋資料,通過偽影識別和重用實現的效能也與系統中最好的偽影相當。 此外,與從頭開始訓練模型相比,樣本數量可以減少約 2000 個。

有關研究的更多詳細資訊,請參閱原文**。

相關問題答案

    AI大模型專題 大模型時代耳機戰略地位的核心受益者

    今天分享AI大模型系列深度研究報告 AI大模型話題 大模型時代耳機戰略地位的核心受益者 報告製作人 民生 報告共 頁。專題報告 人工智慧學院 . 中國領先的耳機和音訊裝置綜合製造商 漫步者是中國領先的耳機製造商,根據Canalys資料,截至Q,該公司的TWS耳機在國內的市場份額為 年,公司在北京中關...

    大模型時代,DevOps如何“跟上步伐”?

    隨著各行各業數位化的推進,企業對敏捷性的需求逐漸增加,對敏捷性的需求不僅限於IT架構,在軟體開發和部署中也對敏捷性的需求。目前,我們已經進入了乙個 只有快速和牢不可破 的新時代。在這個時代,許多企業都希望通過敏捷創新快速看到業務轉型的成果。在這種背景下,DevOps正在成為核心業務增長的驅動力,不僅...

    在AI模型時代,企業如何構建資料智慧型基礎設施?

    介紹隨著人工智慧和算力的快速發展,資料需要從生產資料轉化為生產力,也需要生產工具。大模型的出現,讓資料的價值更加敏捷,支撐智慧型化,極大地釋放了生產力。在這種情況下,企業如何構建自己的資料智慧型基礎設施?月日,軟硬體國產化公升級換代之路 專題會議邀請了天雲資料HUBBLE產品負責人喬旺龍 迪普科技F...

    AI大車型時代純電動智慧型SUV新標桿,Model Y已成為過去!

    事實上,它是與吉利聯合打造的高階智慧型汽車機械人新品牌,其首款車型極躍與沃爾沃 極星一樣,都是基於C浩瀚平台打造的,在座艙智慧型化 高階自動駕駛 安全性等方面的表現超乎想象,顛覆了以往對智慧型純電動SUV的認知。正好最近對極悅的價格進行了調整,極悅MAX的當前價格是萬元,MAX遠端版售價萬元,MAX...

    大模型時代如何圈地、建房、招商?專訪APUS首席執行官李濤

    聰明的東西。作者 程倩.編輯 沙漠陰影。在年全球大型模型大賽中,GPT 當之無愧。 APUS董事長兼CEO李濤以分的滿分,給自己的大模型打了 分。作為中國網際網絡行業依靠移動應用出海的成功企業之一,APUS也是國內最早進入大型模型賽道的企業之一,也是首批推出千億引數大型模型的企業。今年月,當APUS...