編輯:RunhuggingFace 是目前最熱門的機器學習開源社群,匯集了 300,000 種不同的機器學習模型和超過 100,000 個應用程式供使用者訪問和使用。
如果 HuggingFace 上的 300,000 個模型可以自由組合,一起完成新的學習任務,那會是什麼樣子?
事實上,在2016年HuggingFace推出時,南京大學教授周志華就提出了“學習軟體”的概念來描繪這樣乙個藍圖。
近日,南京大學周志華教授團隊推出了這樣乙個平台——北明塢。
位址:北明武不僅允許研究人員和使用者像使用Huggingface一樣上傳自己的模型,還可以基於基座系統根據使用者的需求進行匹配和協作,高效處理使用者的學習任務。
*位址:北明塢系統倉庫:科研工具包倉庫: 該平台最大的特點是引入了Learnware系統,在實現模型根據使用者需求的自適應匹配和協作能力方面取得了突破性進展。 學習物件由機器學習模型和描述模型的規範組成,即學習=模型+規範。
學習物件的規範由兩部分組成:語義規範和統計規範
語義規範通過文字描述模型的型別和功能; 統計協議使用各種機器學習技術來描述模型中包含的統計資訊。
學習物件的規範描述了模型的能力,使模型可以被充分識別和復用,以滿足使用者未來的需求,而無需使用者事先對學習物件一無所知。
該協議是學習物件基礎系統的核心元件,它連線了系統中與學習物件相關的所有流程,包括學習物件上傳、組織、搜尋、部署和復用。 就像《龍八部》中的燕子碼頭是由許多小島組成的一樣,北碼頭的規矩也像小島一樣。
來自標記空間不同特徵的文物構成了大量的法規島,所有這些島嶼共同構成了文物基座系統中的法規世界。 在《規約》世界中,如果能夠發現並建立不同島嶼之間的聯絡,那麼相應的《規約》島嶼就可以合併。 在工件正規化下,來自世界各地的開發者可以將模型共享到工件基礎系統,通過有效地搜尋和復用工件,幫助使用者高效解決機器學習任務,而無需從頭開始構建機器學習模型。 北明武是學術工件的首個系統開源實現,為學術工件相關研究提供了初步的科研平台。
願意分享的開發者可以自由提交模型,Dock 會協助生成規範形成 Dock 並儲存在 Dock 中,這樣開發者就不需要在這個過程中向 Dock 透露自己的訓練資料。 未來的使用者可以通過向工作站提交需求並在 Dock 的幫助下搜尋和重用工件來完成他們的機器學習任務,並且使用者不能向 Dock 透露自己的資料。 而在未來,當 Artifact Dock 中有數百萬個部件時,就會出現緊急行為:以前沒有開發模型的機器學習任務可以通過重用幾個現有的工件來解決。
神器基座系統。
機器學習在許多領域都取得了巨大的成功,但仍面臨許多問題,例如需要大量的訓練資料和複雜的訓練技能、持續學習的難度、災難性遺忘的風險以及資料私隱所有權的洩露。
雖然上述每個問題都有相應的研究,但由於問題相互耦合,解決其中乙個問題可能會導致其他問題變得更加嚴重。 學習軟體基座系統旨在通過乙個整體框架同時解決上述許多問題: 缺乏訓練資料 技能:即使對於缺乏訓練技能或資料量較少的普通使用者,也可以獲得強大的機器學習模型,因為使用者可以從學習軟體基座系統中獲取高效能的學習工件並進一步調整或改進它們, 而不是從頭開始構建模型。
持續學習:隨著針對各種不同任務進行訓練的高效能工件被提交,工件基座系統中的知識不斷豐富,從而形成一條自然而然的持續和終身學習的道路。
災難性遺忘:一旦收到一件作品,它將永遠被安置在物體基座系統中,除非其功能的所有方面都可以被其他作品取代。 因此,學習件基座系統中的舊知識始終被儲存下來,不會被遺忘。
資料私隱所有權:開發者只提交模型,不共享私有資料,因此資料私隱所有權可以得到很好的保護。 雖然不能完全排除對模型進行逆向工程的可能性,但與許多其他私隱保護解決方案相比,私隱洩露的風險非常小。
如下圖所示,系統工作流程分為以下兩個階段:
提交階段:開發人員自願將各種工件提交到工件基礎系統,系統對這些工件進行質量檢查和進一步組織。 部署階段:使用者提交任務需求後,學習軟體基礎系統會根據學習軟體規範推薦對使用者任務有幫助的學習軟體,並指導使用者進行部署和復用。
該協議是學習物件基礎系統的核心元件,它連線了系統中與學習物件相關的所有流程,包括學習物件上傳、組織、搜尋、部署和復用。
來自標記空間不同特徵的文物構成了大量的法規島,所有這些島嶼共同構成了文物基座系統中的法規世界。 在《規約》世界中,如果能夠發現並建立不同島嶼之間的聯絡,那麼相應的《規約》島嶼就可以合併。
在搜尋時,學習物件基礎系統首先通過使用者需求中的語義規範定位特定的協議島,然後通過使用者需求中的統計協議準確識別協議島上的學習塊。 不同協議孤島的合併意味著相應的工件可以用於具有不同特徵標籤空間的任務,即它們可以重用於超出其原始目的的任務。 通過充分利用社群共享的機器學習模型的能力,雪狼正規化構建了乙個統一的規範空間,以統一的方式高效解決新使用者的機器學習任務。 隨著學習件數量的增加,通過有效組織學習物件結構,學習物件基礎系統解決任務的整體能力將得到顯著增強。 如下圖所示,Beistywu的系統架構由四個層次組成,從學習物件儲存層到使用者互動層,首次系統地自下而上地實現了學習物件正規化。 四個級別的具體功能如下:
學習軟體儲存層:管理以zip包格式儲存的學習文件,並提供通過學習軟體資料庫獲取相關資訊的途徑;
系統引擎層:包括學習軟體正規化中的所有流程,包括學習軟體的上傳、檢測、組織、搜尋、部署和復用,並以Learnware Python包的形式獨立於後端和前端執行,為學習軟體相關任務和科研探索提供豐富的演算法介面。
系統後端層:實現北英武的產業級部署,提供穩定的系統服務,通過提供豐富的後端API,支援前端和客戶端之間的使用者互動;
使用者互動層:實現基於Web的前端和基於命令列的客戶端,為使用者提供豐富便捷的互動方式。 實驗評估在**中,研究團隊還構建了各種型別的基礎實驗場景,以評估用於規範生成、工件識別和重用的基準演算法,影象和文字資料。 資料實驗在各種資料集上,該團隊首先評估了識別和重用工件系統中與使用者任務具有相同特徵空間的工件的效能。 此外,由於**任務通常來自不同的特徵空間,研究團隊還評估了來自不同特徵空間的工件的識別和重用。 同質案例在同構情況下,PFS 資料集中的 53 個儲存充當 53 個唯一使用者。 每個商店都利用自己的測試資料作為使用者任務資料,並採用統一的功能工程方法。 然後,這些使用者可以在基本系統中搜尋與其任務具有相同特徵空間的同類工件。 當使用者沒有標記資料或標記資料數量有限時,團隊會比較不同的基準演算法,所有使用者的平均損失如下圖所示。 左表顯示,無資料方法比從市場上隨機選擇和部署一塊要好得多; 右圖顯示,當使用者的訓練資料有限時,識別和復用單個或多個工件比使用者的自訓練模型更好。
左表顯示,無資料方法比從市場上隨機選擇和部署一塊要好得多; 右圖顯示,當使用者的訓練資料有限時,識別和復用單個或多個工件比使用者的自訓練模型更好。 異質性病例根據市場上學習部分與使用者任務的相似性,異構案例可以進一步劃分為不同的功能專案和不同的任務場景。 不同的特徵工程場景:下圖左側顯示的結果表明,即使使用者缺少標註資料,系統中的學習部分也能表現出強大的效能,尤其是復用多個學習物件的 **erageensemble 方法。
不同的任務場景:
上圖右側顯示了使用者訓練模型的損失曲線和幾種工件復用方法。 顯然,在使用者標註資料量有限的情況下,對異構片段進行實驗驗證是有益的,有助於更好地與使用者的特徵空間對齊。 影象和文字資料實驗此外,研究團隊還在影象資料集上對系統進行了基本評估。 下圖顯示,當使用者面臨稀缺的標註資料或資料量有限(少於 2000 個例項)時,Artifact Dock 系統可以產生良好的效能。
該團隊還在基線文字資料集上對系統進行了基本評估。 使用統一的特徵提取器執行特徵空間對齊。 如下圖所示,即使沒有注釋資料,通過工件識別和重用實現的效能也可與系統中最好的工件相媲美。
此外,與從頭開始訓練模型相比,工件基座系統可以減少樣本數量約2000個樣本。