由機器之心報告。
編輯:陳平、杜薇
麻省理工學院和Microsoft的聯合研究:無需額外的訓練即可提高任務效能並減小大型語言模型的大小。在大模型時代,變形金剛單槍匹馬支撐了整個科研領域。 自發布以來,基於 Transformer 的 LLM 在各種任務上都表現出卓越的效能,其底層 Transformer 架構已成為最先進的自然語言建模和推理技術,並在計算機視覺和強化學習等領域顯示出強大的前景。
然而,當前的 Transformer 架構非常龐大,通常需要大量的計算資源進行訓練和推理。
這是有意為之的,因為在更多引數或資料上訓練的轉換器顯然比其他模型更有能力。 儘管如此,越來越多的研究表明,基於transformer的模型以及神經網路並不需要所有擬合引數來保留它們所學到的假設。
一般來說,大規模的過度引數化在訓練模型時似乎很有幫助,但這些模型可以在推理之前進行大量修剪;研究表明,神經網路通常可以去除 90% 以上的權重,而不會顯著降低效能。 這種現象促使研究人員轉向研究有助於模型推理的修剪策略。
在“真相就在那裡:通過層選擇性秩減少改進語言模型的推理”中,麻省理工學院和Microsoft的研究人員做出了乙個令人驚訝的發現,即仔細修剪 Transformer 模型的特定層可以顯著提高模型在某些任務上的效能。
*位址:*首頁:
該研究將這種簡單的干預雷射稱為,它通過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的效能,LLM可以在模型訓練後進行,不需要額外的引數或資料。
在操作過程中,權重的減少是在特定於模型的權重矩陣和層中進行的,研究還發現,許多相似的矩陣可以顯著減少權重,並且通常直到超過90%的元件被完全去除後才觀察到效能下降。
該研究還發現,這些減少可以顯著提高準確性,這一發現似乎不僅限於自然語言,還包括強化學習的效能提公升。
此外,該研究還試圖推斷出儲存在高階元件中的內容,以便刪除可以提高效能。 研究發現,雷射回答了正確的問題,但在干預之前,原始模型主要以高頻詞(如“the”、“of”等)進行響應,這些詞甚至與正確答案的語義型別不同,這意味著這些成分會導致模型在沒有干預的情況下生成一些不相關的高頻詞。
但是,通過執行一定程度的降級,可以將模型的響應轉換為正確的響應。
為了理解這一點,該研究還探索了其餘元件分別編碼的內容,僅使用它們的高階奇異向量來近似權重矩陣。 結果發現,這些元件描述了與正確答案相同的語義類別中的不同響應或通用高頻詞。
這些結果表明,當雜訊高階分量與低階分量相結合時,它們的衝突響應會產生平均答案,這可能是不正確的。 圖 1 直觀地說明了 Transformer 架構和雷射器所遵循的程式。 在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。
雷射一覽
研究者詳細介紹了雷射干預。 單步雷射干預由三元組(包含引數、層數和降序)定義。 這些值共同描述了哪些矩陣將被它們的低秩近似值替換,以及近似值的嚴格程度。 研究人員依靠引數型別來對他們將要干預的矩陣型別進行分類。
研究人員專注於 W = 中的矩陣,該矩陣由 MLP 中的矩陣和注意力層組成。 層數表示調查員干預的層(第一層從 0 開始索引)。 例如,llama-2 有 32 層,因此
最終,0, 1) 描述了在進行低秩近似時應保留最大秩的哪一部分。例如,設定。
則矩陣的最大秩為 D。 研究者將其替換為 d - 近似值。
下面的圖 1 是乙個雷射器示例,其中 = u in 和 = l 表示更新第 L 層 Transformer 模組中第一層 MLP 的權重矩陣。 另乙個引數控制秩 k 近似中的 k。
雷射可以限制網路中某些資訊的流動,並意外地產生顯著的效能優勢。 這些干預措施也可以很容易地組合,例如按任何順序應用一組干預措施。
雷射方法只是對這種型別的干預進行簡單的搜尋,並進行修改以提供最大的益處。 然而,還有許多其他方法可以結合這些干預措施,這是研究人員未來工作的方向。
實驗結果
在實驗部分,研究人員使用了在 Pile 資料集上預先訓練的 GPT-J 模型,該資料集有 27 個圖層和 60 億個引數。 然後,在包含三元組(主題、關係和答案)樣本的反事實資料集上評估模型的行為,這些樣本為每個問題提供三個釋義提示。
首先是在 Counterfact 資料集上分析 GPT-J 模型。 下面的圖 2 說明了在 Transformer 架構中對每個矩陣應用不同數量的降級結果對資料集分類損失的影響。 這些 Transformer 層中的每乙個都由乙個小型的兩層 MLP 組成,具有獨立的輸入和輸出矩陣。 不同的顏色表示不同百分比的去除元件。
關於提高釋義的準確性和魯棒性,如上圖2和下表1所示,研究人員發現,GPT-J模型在Counterfact資料集上的事實準確率在單層降級時為131% 至 240%。需要注意的是,這些改進只是降級的結果,並不涉及對模型進行任何進一步的訓練或微調。
資料集中的哪些事實將通過降低排名來恢復?研究人員發現,通過降級進行恢復的事實很可能很少出現在資料中,如下圖3所示。
高階元件儲存什麼?研究人員使用高階分量來近似最終的權重矩陣(與雷射不同,雷射使用低階分量來近似),如下圖5(a)所示。 當使用不同數量的高階分量來逼近矩陣時,他們測量了真實答案相對於**答案的平均余弦相似性,如下圖5(b)所示。
最後,研究人員評估了他們的研究結果對 3 種不同 LLM 的多種語言理解任務的普遍性。 對於每項任務,他們通過生成三個指標來評估模型的效能:準確性、分類準確性和損失。 如上表1所示,即使大幅降級也不會降低模型精度,但可以提高模型效能。