編輯:艾倫
近日,艾倫人工智慧研究所發布了第一代 unified-io 2,—— GPT-4 等模型的能力,讓我們可以從新一代模型中一窺 GPT-5 的真面目。
GPT-5 什麼時候到來,它會做什麼?
艾倫人工智慧研究所(Allen Institute for AI)的乙個新模型告訴你答案。
艾倫人工智慧研究所的 Unified-io 2 是第乙個可以處理和生成文字、影象、音訊和動作序列的模型。
這種新的高階 AI 模型使用數十億個資料點進行訓練,雖然模型大小僅為 7b,但它展示了迄今為止最廣泛的多模態功能。
*位址: 那麼,Unified-IO 2 和 GPT-5 有什麼關係呢?
早在 2022 年 6 月,艾倫人工智慧研究所就推出了第一代 Unified-IO,這是首批能夠處理影象和語言的多模態模型之一。
大約在同一時間,OpenAI 正在內部測試 GPT-4,並於 2023 年 3 月正式發布。
因此,Unified-io可以看作是未來大規模AI模型的先瞻。
也就是說,OpenAI 可能正在內部測試 GPT-5,並將在幾個月內發布。
而 Unified-IO 2 這次向我們展示的能力,也將是我們在新的一年裡可以期待的:
GPT-5 等新的 AI 模型可以處理更多模態,通過廣泛的學習在本地執行許多任務,並對與物體和機械人的互動有基本的了解。
Unified-IO 2 的訓練資料包括:10 億個影象文字對、1 萬億個文字標籤、18 億個 ** 剪輯,1 個3 億張帶文字的影象、300 萬個 3D 資產和 100 萬個機械人**運動序列。
研究團隊將總共 120 多個資料集組合成乙個 600 TB 的軟體包,涵蓋 220 項視覺、語言、聽覺和運動任務。
Unified-IO 2 使用編碼器-解碼器架構,並進行了一些更改,以穩定訓練並有效利用多模態訊號。
模型可以回答問題,根據指令編寫文字,並分析文字內容。
該模型還可以識別影象內容,提供影象描述,執行影象處理任務,並根據文字描述建立新影象。
它還可以根據描述或說明生成**或聲音,以及分析**並回答有關**的問題。
通過使用機械人資料進行訓練,Unified-IO 2 還可以為機械人系統生成動作,例如將指令轉換為機械人的動作序列。
由於多模態訓練,它還可以處理不同的模態,例如,在影象上標記某個軌道使用的樂器。
Unified-IO 2 在超過 35 個基準測試中表現良好,包括影象生成和理解、自然語言理解**和音訊理解以及機械人操作。
在大多數任務中,它與專用模型相當,甚至更好。
Unified-IO 2 目前在影象任務的 GRIT 基準測試中獲得了最高分(GRIT 用於測試模型如何處理影象噪點和其他問題)。
研究人員現在計畫進一步擴充套件 Unified-IO 2,以提高資料質量,並將編碼器-解碼器模型轉換為行業標準的解碼器模型架構。
unified-io 2
Unified-IO 2 是第乙個能夠理解和生成影象、文字、音訊和運動的自回歸多模態模型。
為了統一不同的模態,研究人員將輸入和輸出(影象、文字、音訊、運動、邊界框等)標記為共享語義空間,然後使用單個編碼器-解碼器轉換器模型進行處理。
由於用於訓練模型的資料量龐大且存在各種不同的模式,研究人員採用了一系列技術來改進整個訓練過程。
為了有效地促進跨多種模態的自監督學習訊號,研究人員開發了一種新型的去噪器目標多模態混合,結合了跨模態去噪和生成。
還開發了動態打包,將訓練吞吐量提高了 4 倍,以處理高度可變的序列。
為了克服訓練中的穩定性和可擴充套件性問題,研究人員對感知器重取樣器進行了架構更改,包括 2D 旋轉嵌入、QK 歸一化和縮放余弦注意力機制。
對於指令調整,請確保每個任務都有明確的提示,無論是使用現有任務還是建立新任務。 還包括開放式任務,並為不太常見的模式建立合成任務,以增強任務和指令的多樣性。
將多模態資料編碼為共享表示空間中的標籤序列,包括以下內容:
文字輸入和輸出使用 llama 中的位元組進行編碼,將邊界框、關鍵幀和相機姿勢等稀疏結構離散化,然後使用新增到詞彙表中的 1000 個特殊標籤進行編碼。
點用兩個標記(x、y)編碼,用四個標記(左上角和右下角)的序列對框進行編碼,3D 框用 12 個標記(編碼投影中心、虛擬深度、對數歸一化框大小和連續同心旋轉)表示。
對於具身任務,離散的機械人動作以文字命令的形式生成(例如,向前移動)。 特殊標記用於對機械人的狀態(例如位置和旋轉)進行編碼。
使用預先訓練的視覺轉換器 (VIT) 對影象進行編碼。 連線 VIT 的第二層和倒數第二層的麵片要素,以捕獲低階和高階視覺資訊。
生成影象時,使用VQ-GAN將影象轉換為離散標籤,並使用補丁大小為8 8的密集預訓練VQ-GAN模型將256 256的影象編碼為1024個令牌,碼本大小為16512。
然後,每個畫素的標籤(包括深度、表面法線和二進位分割蒙版)表示為 RGB 影象。
U-IO 2 最多 4 個08 秒的音訊被編碼為頻譜圖,然後使用預訓練的音訊頻譜圖轉換器 (AST) 進行編碼,並通過連線 AST 的第二層和倒數第二層特徵並應用線性層來構建輸入嵌入,就像影象 VIT 一樣。
生成音訊時,使用VIT-VQGAN將音訊轉換為離散令牌,模型的補丁大小為8 8,將256 128的頻譜圖編碼為512個令牌,碼本大小為8196。
該模型允許多達四個額外的影象和音訊片段作為輸入,這些片段也使用 VIT 或 AST 進行編碼,然後是感知器重取樣器,這些重取樣器進一步將特徵壓縮到更小的數字(影象為 32 個,音訊為 16 個)。
這大大縮短了序列的長度,並允許模型在使用歷史記錄中的元素作為上下文時對影象或音訊片段進行高細節檢查。
研究人員觀察到,當我們整合其他模式時,使用U-IO後的標準實現導致訓練越來越不穩定。
如下圖(a)和(b)所示,僅對影象生成進行訓練(綠色曲線)會導致穩定的損失和梯度範數收斂。
與單一模態相比,引入的影象和文字任務的組合(橙色曲線)略微增加了梯度範數,但保持穩定。 然而,包含**模態(藍色曲線)會導致梯度範數的無限公升級。
如圖(c)和(d)所示,當模型的XXL版本在所有模態上訓練時,損失在350k步後,下乙個標籤的精度在400k步後顯著降低。
為了解決這個問題,研究人員進行了各種架構更改:
在每個 Transformer 層上應用旋轉位置嵌入 (ROPE)。 對於非文字形式,將 ROPE 擴充套件到二維位置;當包含影象和音訊模態時,layerNorm 將應用於點積注意力計算之前的 q 和 k。
此外,通過使用感知器重取樣器,將每個影象幀和音訊片段壓縮成固定數量的標記,並使用縮放余弦注意力在感知中應用更嚴格的歸一化,訓練得到了顯著的穩定。
為了避免數值不穩定,還啟用了 float32 注意力對數,並在預訓練期間凍結 VIT 和 AST,並在指令調整結束時進行微調。
從上圖可以看出,儘管輸入和輸出模式存在異質性,但模型的預訓練損失是穩定的。
本文遵循 UL2 正規化。 對於影象和音訊目標,此處定義了兩種類似的正規化:
r]:遮罩降噪,隨機遮罩 x% 的輸入影象或音訊補丁特徵,讓模型重建;
s]:在其他輸入模態條件下生成目標模式需要模型。
在訓練過程中,模態標籤([text]、[image] 或 [audio])和正規化標籤([r]、[s] 或 [x])用作字首來指示輸入文字以指示任務,動態掩碼用於自回歸。
如上圖所示,影象和音訊掩碼去噪的乙個問題是解碼器端的資訊洩漏。
這裡的解決方案是在解碼器中遮蔽令牌(此令牌除外),這不會干擾因果關係,同時消除資料洩漏。
對大量多模態資料進行訓練會導致轉換器輸入和輸出的序列長度高度可變。
這裡使用打包來解決這個問題:將多個示例的標記打包到單個序列中,並遮蔽注意力以防止轉換器在示例之間交叉參與。
在訓練期間,啟發式方法用於重新排列流式傳輸到模型的資料,以將長樣本與可打包的短樣本進行匹配。 本文的動態打包將訓練吞吐量提高了近 4 倍。
多模態指令調優是為模型配備不同技能和能力的關鍵過程,用於各種模態,甚至適應新的和獨特的指令。
研究人員通過結合廣泛的監督資料集和任務來構建多模態指令調優資料集。
指令調優資料的分布如上圖所示。 總體而言,指令調優組合包括 60% 的提示資料、30% 從預訓練繼承的資料(使用現有資料來源構建的任務增強資料,以避免災難性遺忘)和 4% 的自由格式文字(用於類似聊天的響應)。
引用: