機器之心柱。
《機器之心》編輯部
你如何讓LLM“忘記”他們所學的東西?隨著大型語言模型(LLM)的發展,從業者面臨著更多的挑戰。 如何避免來自 LLM 的有害回覆?如何快速從訓練資料中刪除受版權保護的內容?我怎樣才能減少幻覺(即虛假事實)?如何在資料策略更改後快速迭代 LLM在人工智慧法律和道德合規要求日益成熟的背景下,這些問題對於LLM的安全和可信部署至關重要。
目前業界主流的解決方案是LLM對齊,即通過建立對比資料(正負樣本)通過強化化學習,即RLHF(強化學習人類反饋)[1]來微調LLM,從而確保LLM輸出符合人類的期望和價值觀。 但是,對齊過程通常受制於 (1) 資料收集(2)計算資源限制。
位元組跳動為LLM提出了一種忘記對齊的習方法。 本文研究了如何“遺忘”LLM,即遺忘有害行為或遺忘習(機器解構),作者展示了遺忘習對三種LLM對齊場景的明顯影響:(1)去除有害輸出;(2)刪除侵權內容;(3)消除大型語言LLM的錯覺。
遺忘習有三個優點:(1)只需要陰性樣本(有害樣本),比RLHF要求的陽性樣本(高質量的人類手寫輸出)(如紅隊測試或使用者報告)收集簡單得多;(2)計算成本低;(3)當知道哪些訓練樣本導致LLM有害行為時,忘記習特別有效。
作者證明,如果從業者資源較少,因此優先考慮停止產生有害的產出,而不是試圖產生過於理想化的產出,那麼忘記習學習特別方便。 儘管只有負樣本,但研究表明,與RLHF相比,忘記習仍然可以獲得更好的對準效能,計算時間僅為2%。
*位址:*位址:
使用場景
這種方法可以最大限度地發揮有限資源的好處。 當某人沒有預算來編寫乙個好的樣本時,或者當計算資源不足時,應該優先考慮阻止 LLM 產生有害的輸出,而不是試圖讓它們產生有益的輸出。
有害輸出造成的損害遠遠不能用有益輸出來彌補。 如果使用者向 LLM 提出 100 個問題,而他得到的答案是有害的,那麼無論 LLM 以後能給出多少有用的答案,他都會失去信任。 有害問題的預期輸出可以是空格、特殊字元、無意義的字串等,簡而言之,它必須是無害的文字。
本文展示了LLM忘記習的三個成功案例:(1)停止產生有害反應(圖1);這與RLHF上下文類似,只是這種方法的目標是產生無害的響應,而不是有益的響應。 當只有陰性樣本時,這是最好的結果。 (2)LLM使用侵權資料進行訓練後,應作者要求成功刪除資料,且LLM因成本考慮無法重新訓練(3)法學碩士成功地忘記了“幻覺”。
圖 1. 方法:
在微調步驟 t 中,LLM 更新如下:
第乙個損失是辮子下降,旨在忘記有害樣本
是乙個有害的提示
進行相應的有害回覆。 總體損失與有害樣本的損失相反,即使LLM“忘記”有害樣本。
第二個損失是隨機不匹配,迫使 LLM 在有害提示上回覆無關緊要的內容。 類似於分類中的標籤平滑處理 [2]。 目的是更好地忘記 LLM 上的有害輸出。 同時,實驗發現,它可以提高LLM正常輸出的效能。
第三個損失是維持正常任務的效能:
與 RLHF 類似,計算預訓練 LLM 的 KL 散度將更好地保持 LLM 效能。
此外,所有梯度上公升和下降僅在輸出 (y) 部分完成,而不是像 rlhf 那樣在提示輸出對 (x, y) 上完成。
應用場景:忘記有害內容等
本文以pku-saferlhf資料作為遺忘資料,真實QA作為正常資料,圖2顯示了遺忘學習習後LLM對遺忘有害線索的有害率輸出。 本文使用的方法為GA(Gradient Ascent and GA+Mismatch:Gradient Ascent + Random Mismatch)。 忘記學習習的有害率接近於零。
圖二. 圖 3 顯示了看不見的有害提示(未被遺忘)的輸出。 即使在未被遺忘的有害提示上,LLM的有害率也接近於零,這證明LLM不僅忘記了他們看到的樣本,而且被推廣到包括傷害的概念。
圖三. 同時,LLM在正常樣本上的表現與遺忘前相似。
表 1 顯示了生成的樣本。 可以看出,在有害提示下,LLM生成的樣本都是無意義的字串,即無害的輸出。
表一. 該方法在原始申請文字中針對其他場景進行了詳細描述,例如忘記侵權內容和忘記幻覺。
RLHF 比較
表2顯示了該方法與RLHF的比較,其中RLHF已經使用了正面示例,而忘記習的方法只有負面示例,因此該方法從比較開始就處於劣勢。 但即便如此,被遺忘的習也可以實現與RLHF類似的對準效能。
表二. 圖 4 顯示了計算時間的比較,它只需要 RLHF 計算時間的 2%。
圖四. 儘管只有負樣本,但忘記學習的習方法仍然達到了與RLHF相似的無害率,並且僅使用2%的雜湊率。 因此,如果目標是停止輸出有害輸出,忘記習比rlhf更有效。
結論
該研究首次探討了在LLM上忘記習的問題。 本文的結果表明,健忘症習是一種很有前途的對齊方式,特別是當從業者沒有足夠的資源時。 **展示了三種場景:遺忘習可以成功去除有害回應,刪除侵權內容,消除幻覺。 研究表明,儘管只有陰性樣本,但忘記 習 可以在 RLHF 計算的時間內僅 2% 實現與 RLHF 相似的對齊。
引用。 1] ouyang, long, et al. "training language models to follow instructions with human feedback." advances in neural information processing systems 35 (2022): 27730-27744.
2] müller, rafael, simon kornblith, and geoffrey e. hinton. "when does label smoothing help?" advances in neural information processing systems 32 (2019).