利用RLHF 2的計算能力來阻止LLM的有害輸出，Byte提出了LLM忘記學習習

機器之心柱。

《機器之心》編輯部

你如何讓LLM“忘記”他們所學的東西？

隨著大型語言模型（LLM）的發展，從業者面臨著更多的挑戰。如何避免來自 LLM 的有害回覆？如何快速從訓練資料中刪除受版權保護的內容？我怎樣才能減少幻覺（即虛假事實）？如何在資料策略更改後快速迭代 LLM在人工智慧法律和道德合規要求日益成熟的背景下，這些問題對於LLM的安全和可信部署至關重要。

目前業界主流的解決方案是LLM對齊，即通過建立對比資料（正負樣本）通過強化化學習，即RLHF（強化學習人類反饋）[1]來微調LLM，從而確保LLM輸出符合人類的期望和價值觀。但是，對齊過程通常受制於（1）資料收集（2）計算資源限制。

位元組跳動為LLM提出了一種忘記對齊的習方法。本文研究了如何“遺忘”LLM，即遺忘有害行為或遺忘習（機器解構），作者展示了遺忘習對三種LLM對齊場景的明顯影響：（1）去除有害輸出;（2）刪除侵權內容;（3）消除大型語言LLM的錯覺。

遺忘習有三個優點：（1）只需要陰性樣本（有害樣本），比RLHF要求的陽性樣本（高質量的人類手寫輸出）（如紅隊測試或使用者報告）收集簡單得多;（2）計算成本低;（3）當知道哪些訓練樣本導致LLM有害行為時，忘記習特別有效。

作者證明，如果從業者資源較少，因此優先考慮停止產生有害的產出，而不是試圖產生過於理想化的產出，那麼忘記習學習特別方便。儘管只有負樣本，但研究表明，與RLHF相比，忘記習仍然可以獲得更好的對準效能，計算時間僅為2%。

*位址：*位址：

使用場景

這種方法可以最大限度地發揮有限資源的好處。當某人沒有預算來編寫乙個好的樣本時，或者當計算資源不足時，應該優先考慮阻止 LLM 產生有害的輸出，而不是試圖讓它們產生有益的輸出。

有害輸出造成的損害遠遠不能用有益輸出來彌補。如果使用者向 LLM 提出 100 個問題，而他得到的答案是有害的，那麼無論 LLM 以後能給出多少有用的答案，他都會失去信任。有害問題的預期輸出可以是空格、特殊字元、無意義的字串等，簡而言之，它必須是無害的文字。

本文展示了LLM忘記習的三個成功案例：（1）停止產生有害反應（圖1）;這與RLHF上下文類似，只是這種方法的目標是產生無害的響應，而不是有益的響應。當只有陰性樣本時，這是最好的結果。（2）LLM使用侵權資料進行訓練後，應作者要求成功刪除資料，且LLM因成本考慮無法重新訓練（3）法學碩士成功地忘記了“幻覺”。

圖 1. 方法：

在微調步驟 t 中，LLM 更新如下：

第乙個損失是辮子下降，旨在忘記有害樣本

是乙個有害的提示

進行相應的有害回覆。總體損失與有害樣本的損失相反，即使LLM“忘記”有害樣本。

第二個損失是隨機不匹配，迫使 LLM 在有害提示上回覆無關緊要的內容。類似於分類中的標籤平滑處理 [2]。目的是更好地忘記 LLM 上的有害輸出。同時，實驗發現，它可以提高LLM正常輸出的效能。

第三個損失是維持正常任務的效能：

與 RLHF 類似，計算預訓練 LLM 的 KL 散度將更好地保持 LLM 效能。

此外，所有梯度上公升和下降僅在輸出（y）部分完成，而不是像 rlhf 那樣在提示輸出對（x， y）上完成。

應用場景：忘記有害內容等

本文以pku-saferlhf資料作為遺忘資料，真實QA作為正常資料，圖2顯示了遺忘學習習後LLM對遺忘有害線索的有害率輸出。本文使用的方法為GA（Gradient Ascent and GA+Mismatch：Gradient Ascent + Random Mismatch）。忘記學習習的有害率接近於零。

圖二. 圖 3 顯示了看不見的有害提示（未被遺忘）的輸出。即使在未被遺忘的有害提示上，LLM的有害率也接近於零，這證明LLM不僅忘記了他們看到的樣本，而且被推廣到包括傷害的概念。

圖三. 同時，LLM在正常樣本上的表現與遺忘前相似。

表 1 顯示了生成的樣本。可以看出，在有害提示下，LLM生成的樣本都是無意義的字串，即無害的輸出。

表一. 該方法在原始申請文字中針對其他場景進行了詳細描述，例如忘記侵權內容和忘記幻覺。

RLHF 比較

表2顯示了該方法與RLHF的比較，其中RLHF已經使用了正面示例，而忘記習的方法只有負面示例，因此該方法從比較開始就處於劣勢。但即便如此，被遺忘的習也可以實現與RLHF類似的對準效能。

表二. 圖 4 顯示了計算時間的比較，它只需要 RLHF 計算時間的 2%。

圖四. 儘管只有負樣本，但忘記學習的習方法仍然達到了與RLHF相似的無害率，並且僅使用2%的雜湊率。因此，如果目標是停止輸出有害輸出，忘記習比rlhf更有效。

結論

該研究首次探討了在LLM上忘記習的問題。本文的結果表明，健忘症習是一種很有前途的對齊方式，特別是當從業者沒有足夠的資源時。 **展示了三種場景：遺忘習可以成功去除有害回應，刪除侵權內容，消除幻覺。研究表明，儘管只有陰性樣本，但忘記習可以在 RLHF 計算的時間內僅 2% 實現與 RLHF 相似的對齊。

引用。 1] ouyang, long, et al. "training language models to follow instructions with human feedback." advances in neural information processing systems 35 (2022): 27730-27744.

2] müller, rafael, simon kornblith, and geoffrey e. hinton. "when does label smoothing help?" advances in neural information processing systems 32 (2019).

利用RLHF 2的計算能力來阻止LLM的有害輸出，Byte提出了LLM忘記學習習

相關問題答案

2噸鍋爐除塵器有多大

爬上“懸崖前哨”！在茫茫雪原上，他們用了22472級台階，開闢了一條巡邏路

“中國第一善”陳游標捐資20億元用現金築牆後消失，告別時成了農民

《底層邏輯2》用數字思維理解商業世界的本質

數學中的小魔法快速計算 210 42 6 以簡單的方式

利用RLHF 2的計算能力來阻止LLM的有害輸出，Byte提出了LLM忘記學習習

相關問題答案

2噸鍋爐除塵器有多大

爬上“懸崖前哨”！在茫茫雪原上，他們用了22472級台階，開闢了一條巡邏路

“中國第一善”陳游標捐資20億元用現金築牆後消失，告別時成了農民

《底層邏輯2》用數字思維理解商業世界的本質

數學中的小魔法 快速計算 210 42 6 以簡單的方式

數學中的小魔法快速計算 210 42 6 以簡單的方式