利用RLHF 2的計算能力來阻止LLM的有害輸出,Byte提出了LLM忘記學習習

Mondo 教育 更新 2024-01-29

機器之心柱。

《機器之心》編輯部

你如何讓LLM“忘記”他們所學的東西?

隨著大型語言模型(LLM)的發展,從業者面臨著更多的挑戰。 如何避免來自 LLM 的有害回覆?如何快速從訓練資料中刪除受版權保護的內容?我怎樣才能減少幻覺(即虛假事實)?如何在資料策略更改後快速迭代 LLM在人工智慧法律和道德合規要求日益成熟的背景下,這些問題對於LLM的安全和可信部署至關重要。

目前業界主流的解決方案是LLM對齊,即通過建立對比資料(正負樣本)通過強化化學習,即RLHF(強化學習人類反饋)[1]來微調LLM,從而確保LLM輸出符合人類的期望和價值觀。 但是,對齊過程通常受制於 (1) 資料收集(2)計算資源限制。

位元組跳動為LLM提出了一種忘記對齊的習方法。 本文研究了如何“遺忘”LLM,即遺忘有害行為或遺忘習(機器解構),作者展示了遺忘習對三種LLM對齊場景的明顯影響:(1)去除有害輸出;(2)刪除侵權內容;(3)消除大型語言LLM的錯覺。

遺忘習有三個優點:(1)只需要陰性樣本(有害樣本),比RLHF要求的陽性樣本(高質量的人類手寫輸出)(如紅隊測試或使用者報告)收集簡單得多;(2)計算成本低;(3)當知道哪些訓練樣本導致LLM有害行為時,忘記習特別有效。

作者證明,如果從業者資源較少,因此優先考慮停止產生有害的產出,而不是試圖產生過於理想化的產出,那麼忘記習學習特別方便。 儘管只有負樣本,但研究表明,與RLHF相比,忘記習仍然可以獲得更好的對準效能,計算時間僅為2%。

*位址:*位址:

使用場景

這種方法可以最大限度地發揮有限資源的好處。 當某人沒有預算來編寫乙個好的樣本時,或者當計算資源不足時,應該優先考慮阻止 LLM 產生有害的輸出,而不是試圖讓它們產生有益的輸出。

有害輸出造成的損害遠遠不能用有益輸出來彌補。 如果使用者向 LLM 提出 100 個問題,而他得到的答案是有害的,那麼無論 LLM 以後能給出多少有用的答案,他都會失去信任。 有害問題的預期輸出可以是空格、特殊字元、無意義的字串等,簡而言之,它必須是無害的文字。

本文展示了LLM忘記習的三個成功案例:(1)停止產生有害反應(圖1);這與RLHF上下文類似,只是這種方法的目標是產生無害的響應,而不是有益的響應。 當只有陰性樣本時,這是最好的結果。 (2)LLM使用侵權資料進行訓練後,應作者要求成功刪除資料,且LLM因成本考慮無法重新訓練(3)法學碩士成功地忘記了“幻覺”。

圖 1. 方法:

在微調步驟 t 中,LLM 更新如下:

第乙個損失是辮子下降,旨在忘記有害樣本

是乙個有害的提示

進行相應的有害回覆。 總體損失與有害樣本的損失相反,即使LLM“忘記”有害樣本。

第二個損失是隨機不匹配,迫使 LLM 在有害提示上回覆無關緊要的內容。 類似於分類中的標籤平滑處理 [2]。 目的是更好地忘記 LLM 上的有害輸出。 同時,實驗發現,它可以提高LLM正常輸出的效能。

第三個損失是維持正常任務的效能:

與 RLHF 類似,計算預訓練 LLM 的 KL 散度將更好地保持 LLM 效能。

此外,所有梯度上公升和下降僅在輸出 (y) 部分完成,而不是像 rlhf 那樣在提示輸出對 (x, y) 上完成。

應用場景:忘記有害內容等

本文以pku-saferlhf資料作為遺忘資料,真實QA作為正常資料,圖2顯示了遺忘學習習後LLM對遺忘有害線索的有害率輸出。 本文使用的方法為GA(Gradient Ascent and GA+Mismatch:Gradient Ascent + Random Mismatch)。 忘記學習習的有害率接近於零。

圖二. 圖 3 顯示了看不見的有害提示(未被遺忘)的輸出。 即使在未被遺忘的有害提示上,LLM的有害率也接近於零,這證明LLM不僅忘記了他們看到的樣本,而且被推廣到包括傷害的概念。

圖三. 同時,LLM在正常樣本上的表現與遺忘前相似。

表 1 顯示了生成的樣本。 可以看出,在有害提示下,LLM生成的樣本都是無意義的字串,即無害的輸出。

表一. 該方法在原始申請文字中針對其他場景進行了詳細描述,例如忘記侵權內容和忘記幻覺。

RLHF 比較

表2顯示了該方法與RLHF的比較,其中RLHF已經使用了正面示例,而忘記習的方法只有負面示例,因此該方法從比較開始就處於劣勢。 但即便如此,被遺忘的習也可以實現與RLHF類似的對準效能。

表二. 圖 4 顯示了計算時間的比較,它只需要 RLHF 計算時間的 2%。

圖四. 儘管只有負樣本,但忘記學習的習方法仍然達到了與RLHF相似的無害率,並且僅使用2%的雜湊率。 因此,如果目標是停止輸出有害輸出,忘記習比rlhf更有效。

結論

該研究首次探討了在LLM上忘記習的問題。 本文的結果表明,健忘症習是一種很有前途的對齊方式,特別是當從業者沒有足夠的資源時。 **展示了三種場景:遺忘習可以成功去除有害回應,刪除侵權內容,消除幻覺。 研究表明,儘管只有陰性樣本,但忘記 習 可以在 RLHF 計算的時間內僅 2% 實現與 RLHF 相似的對齊。

引用。 1] ouyang, long, et al. "training language models to follow instructions with human feedback." advances in neural information processing systems 35 (2022): 27730-27744.

2] müller, rafael, simon kornblith, and geoffrey e. hinton. "when does label smoothing help?" advances in neural information processing systems 32 (2019).

相關問題答案

    2噸鍋爐除塵器有多大

    介紹 在工業生產中,鍋爐作為一種重要的能量轉換裝置,被廣泛應用於各個領域。然而,鍋爐在執行過程中會產生大量粉塵,這會對環境和裝置本身產生嚴重影響。因此,選擇合適的除塵器是保證鍋爐安全穩定執行的重要措施。本文將詳細介紹一台噸鍋爐需要多大的除塵器,以幫助客戶更好地了解和選擇合適的除塵器。二 噸鍋爐粉塵產...

    爬上“懸崖前哨”!在茫茫雪原上,他們用了22472級台階,開闢了一條巡邏路

    向 懸崖前哨 走去。馬靖.明年,通往哨所的道路將得到修復。如果你再來,你就不必爬山了。窗外,北風呼嘯而過,樹葉飛遍天空,隨風飄散。這突如其來的 聲,彷彿讓我回到了那個寒冷的四月。四月的成都,陽光明媚,鮮花盛開 四月的南山,春風吹過念青塘古拉山,亞龍江緩緩甦醒.前幾天山上下起了大雪,通往前哨的道路被泥...

    “中國第一善”陳游標捐資20億元用現金築牆後消失,告別時成了農民

    年,中國第一仁人 陳游標,在準備了萬個口罩並完成捐贈後,突然一夜之間 蒸發 了。曾四次入圍 中華慈善獎 的陳游標,累計捐款超過億元,累計捐款超過億元。這樣一位偉大的仁人,突然消失在大眾面前,引起了廣泛的熱議。陳游標一路走來,榮辱並存,站在百元鈔票堆裡的陳游標,一直被質疑和炒作。陳游標來不及回答這些問...

    《底層邏輯2》用數字思維理解商業世界的本質

    總是從那些有結果的人那裡習,因為結果不會說謊。您如何在這個不確定的商業世界中取得成功?所有這一切的答案都隱藏在我們每天使用的簡單數學中。有一本書來得正是時候,它揭示了商業成功背後的數學原理,並教我們如何應用它來解決現實世界的問題。底層邏輯 的作者是一位知名的商業顧問劉潤曾任Microsoft中國分公...

    數學中的小魔法 快速計算 210 42 6 以簡單的方式

    嘿,數學偵探,今天我們要玩一些數學技巧。當面對乙個看似複雜的數學問題時,你是否曾經感到困惑?別擔心,今天我就教你乙個簡單快捷的解決方法這樣的話題。準備好開始了嗎?讓我們一起解開這個數學難題吧!首先,我們面臨的問題是什麼?看,你可能會想到先做除法,再做乘法。但是等等,有沒有更簡單的方法?絕對!這就是我...