在不降低效能的情況下,降低 Transformer 的等級,並移除特定層中 90 以上元件的 LLM 效能

Mondo 財經 更新 2024-01-31

由機器之心報告。

編輯:陳平、杜薇

麻省理工學院和Microsoft的聯合研究:無需額外的訓練即可提高任務效能並減小大型語言模型的大小。

在大模型時代,變形金剛單槍匹馬支撐了整個科研領域。 自發布以來,基於 Transformer 的 LLM 在各種任務上都表現出卓越的效能,其底層 Transformer 架構已成為最先進的自然語言建模和推理技術,並在計算機視覺和強化學習等領域顯示出強大的前景。

然而,當前的 Transformer 架構非常龐大,通常需要大量的計算資源進行訓練和推理。

這是有意為之的,因為在更多引數或資料上訓練的轉換器顯然比其他模型更有能力。 儘管如此,越來越多的研究表明,基於transformer的模型以及神經網路並不需要所有擬合引數來保留它們所學到的假設。

一般來說,大規模的過度引數化在訓練模型時似乎很有幫助,但這些模型可以在推理之前進行大量修剪;研究表明,神經網路通常可以去除 90% 以上的權重,而不會顯著降低效能。 這種現象促使研究人員轉向研究有助於模型推理的修剪策略。

在“真相就在那裡:通過層選擇性秩減少改進語言模型的推理”中,麻省理工學院和Microsoft的研究人員做出了乙個令人驚訝的發現,即仔細修剪 Transformer 模型的特定層可以顯著提高模型在某些任務上的效能。

*位址:*首頁:

該研究將這種簡單的干預雷射稱為,它通過奇異值分解選擇性地減少Transformer模型中特定層的學習權重矩陣的高階分量,從而顯著提高LLM的效能,LLM可以在模型訓練後進行,不需要額外的引數或資料。

在操作過程中,權重的減少是在特定於模型的權重矩陣和層中進行的,研究還發現,許多相似的矩陣可以顯著減少權重,並且通常直到超過90%的元件被完全去除後才觀察到效能下降。

該研究還發現,這些減少可以顯著提高準確性,這一發現似乎不僅限於自然語言,還包括強化學習的效能提公升。

此外,該研究還試圖推斷出儲存在高階元件中的內容,以便刪除可以提高效能。 研究發現,雷射回答了正確的問題,但在干預之前,原始模型主要以高頻詞(如“the”、“of”等)進行響應,這些詞甚至與正確答案的語義型別不同,這意味著這些成分會導致模型在沒有干預的情況下生成一些不相關的高頻詞。

但是,通過執行一定程度的降級,可以將模型的響應轉換為正確的響應。

為了理解這一點,該研究還探索了其餘元件分別編碼的內容,僅使用它們的高階奇異向量來近似權重矩陣。 結果發現,這些元件描述了與正確答案相同的語義類別中的不同響應或通用高頻詞。

這些結果表明,當雜訊高階分量與低階分量相結合時,它們的衝突響應會產生平均答案,這可能是不正確的。 圖 1 直觀地說明了 Transformer 架構和雷射器所遵循的程式。 在這裡,特定層的多層感知器(MLP)的權重矩陣被替換為其低秩近似。

雷射一覽

研究者詳細介紹了雷射干預。 單步雷射干預由三元組(包含引數、層數和降序)定義。 這些值共同描述了哪些矩陣將被它們的低秩近似值替換,以及近似值的嚴格程度。 研究人員依靠引數型別來對他們將要干預的矩陣型別進行分類。

研究人員專注於 W = 中的矩陣,該矩陣由 MLP 中的矩陣和注意力層組成。 層數表示調查員干預的層(第一層從 0 開始索引)。 例如,llama-2 有 32 層,因此

最終,0, 1) 描述了在進行低秩近似時應保留最大秩的哪一部分。例如,設定。

則矩陣的最大秩為 D。 研究者將其替換為 d - 近似值。

下面的圖 1 是乙個雷射器示例,其中 = u in 和 = l 表示更新第 L 層 Transformer 模組中第一層 MLP 的權重矩陣。 另乙個引數控制秩 k 近似中的 k。

雷射可以限制網路中某些資訊的流動,並意外地產生顯著的效能優勢。 這些干預措施也可以很容易地組合,例如按任何順序應用一組干預措施。

雷射方法只是對這種型別的干預進行簡單的搜尋,並進行修改以提供最大的益處。 然而,還有許多其他方法可以結合這些干預措施,這是研究人員未來工作的方向。

實驗結果

在實驗部分,研究人員使用了在 Pile 資料集上預先訓練的 GPT-J 模型,該資料集有 27 個圖層和 60 億個引數。 然後,在包含三元組(主題、關係和答案)樣本的反事實資料集上評估模型的行為,這些樣本為每個問題提供三個釋義提示。

首先是在 Counterfact 資料集上分析 GPT-J 模型。 下面的圖 2 說明了在 Transformer 架構中對每個矩陣應用不同數量的降級結果對資料集分類損失的影響。 這些 Transformer 層中的每乙個都由乙個小型的兩層 MLP 組成,具有獨立的輸入和輸出矩陣。 不同的顏色表示不同百分比的去除元件。

關於提高釋義的準確性和魯棒性,如上圖2和下表1所示,研究人員發現,GPT-J模型在Counterfact資料集上的事實準確率在單層降級時為131% 至 240%。需要注意的是,這些改進只是降級的結果,並不涉及對模型進行任何進一步的訓練或微調。

資料集中的哪些事實將通過降低排名來恢復?研究人員發現,通過降級進行恢復的事實很可能很少出現在資料中,如下圖3所示。

高階元件儲存什麼?研究人員使用高階分量來近似最終的權重矩陣(與雷射不同,雷射使用低階分量來近似),如下圖5(a)所示。 當使用不同數量的高階分量來逼近矩陣時,他們測量了真實答案相對於**答案的平均余弦相似性,如下圖5(b)所示。

最後,研究人員評估了他們的研究結果對 3 種不同 LLM 的多種語言理解任務的普遍性。 對於每項任務,他們通過生成三個指標來評估模型的效能:準確性、分類準確性和損失。 如上表1所示,即使大幅降級也不會降低模型精度,但可以提高模型效能。

相關問題答案

    落!落!落!價格創近10年來新低

    鮑魚是我國傳統的珍貴食材,隨著近年來養殖技術的不斷發展,現在是人們餐桌上比較常見的食材。同時,養殖規模的逐步擴大,也讓鮑魚 逐年下降,今年冬天甚至創下了近年來的新低。山東榮成是中國北方最大的鮑魚養殖基地。這裡水流湍急,餌料豐富,非常適合鮑魚生長。記者在這裡看到,養殖戶們正忙著打撈成熟的鮑魚,準備 在...

    溫度會上公升和下降,所以要注意溫暖,不要感冒

    據月日時監測,我省除盤州外各縣氣溫均已公升至以上。其中,貴陽市市區面積為 最低的縣站是盤州 最低的鄉鎮車站為江口縣樊井山 經過兩天的低溫多雨,天氣終於要露出笑容了。今晚至日白天,全省自北向南轉為多雲轉晴,白天氣溫公升高,夜間至早晨區域性有霜凍。但是,冷空氣不會離開太久,日夜間至日,將有新的冷空氣補給...

    長安開城教科書怒氣沖沖地給出了“底價”7000,新長安星卡329萬!

    新款長安星卡值得選擇嗎?來自湖北襄陽的程師傅一直從事冷凍貨物的運輸,每天早上開車到批發市場買貨,穿梭在襄陽的大街小巷,把貨物送到各大超市。我從歲出頭就開始從事這個行業,以前都是用貨車送貨,貨物太滿的時候爬起來有點困難。後來,在朋友的介紹下,我買了這張新的長安星卡,動力強勁,空間大,配置高,非常實用!...

    存息“3連跌”,為明年買房帶來靈感!

    大家好,我是蘇貝哥!這兩天,樓市訊息備受降息關注,南京當地 姐妹城市,甚至全國大號都在議論紛紛!本月日,全國個城市房價公布,月南京新房面臨 連跌 環比漲幅為 同比漲幅為 最新LPR於日發布,年資料為 年資料 與上月持平 日,南京有報道稱,將 動態降低首套房貸款利率 據相關一線報道,中國人民銀行江蘇省...

    30,40,50!玉公尺熱潮!

    月日最新資料顯示,全國玉公尺 趨勢喜憂參半,涉及山東 河南 河北 東北等主要省份和地區。調整範圍主要集中在 元噸範圍內。特別是在山東和東北地區玉公尺更重要。山東湘池 月日玉公尺 調整為 元斤,比前一天提高分。這次價格調整較小,但反映了市場對玉公尺需求減弱的情況。西方之王 月日玉公尺 調整為 元斤,比...