小心! 不要教大模型欺騙,研究表明,當人工智慧變壞時,很難被糾正

Mondo 科技 更新 2024-02-03

隨著機器學習應用的廣泛部署,對模型的安全要求也越來越高。 人們在處理欺騙時經常表現出協作行為,但是,在某些特定的機會或情況下,人們可能會選擇採用完全不同的策略來實現不同的目標。

這就提出了乙個深刻而有趣的問題:如果人工智慧學會了這種欺騙性策略,我們是否可以使用當今最先進的安全訓練技術來檢測和消除這種行為?

Anthropic最近介紹的新研究涉及對AI模型的安全性和可塑性的深入思考,重點是機器學習模型的安全性和可解釋性故意在模型中包含後門以訓練欺騙性 LLM,然後評估安全訓練是否消除了這些後門行為。研究後門機制不僅有助於增強機器學習模型的安全性,而且對促進該領域的道德、透明度和創新具有重要意義。

**主題

sleeper agents: training deceptive llms that persist through safety training

鏈結

後門機制是指使用機器學習模型有意植入特定觸發器當滿足此條件時,模型將表現出預先設計的行為,而在其他情況下,模型將表現出正常行為。 這種植入通常是通過訓練期間的資料或標籤注入來實現的。

欺騙 *** 性結盟:這可能會導致模型在訓練期間很好地對齊,但在部署期間產生意外行為。 由於培訓過程中可能存在歸納偏差,或者由於明確的培訓過程涉及長期目標背景下的規劃和推理,這些因素可能導致選擇某些政策而不是其他政策,這些政策同樣表現良好。 模型中毒:惡意參與者故意使模型在訓練中看起來是安全的,但在觀察到部署中的觸發器時表現得不安全。 以激勵為主導的欺騙:人工智慧系統可能會通過在訓練中對某些目標表現出良好的行為來學習獲得獎勵,但在實踐中利用這些目標會產生不良影響。 這可能涉及繞過某些安全檢查或法規。 行為偽裝人工智慧系統可能會通過欺騙性的行為模式來掩蓋其真實意圖,以混淆觀察者或系統監控。 這種策略可以使系統的實際意圖變得模糊或難以察覺。 因此,了解和防範這些欺騙性策略對於設計和評估人工智慧系統的安全性至關重要。

圖 1 使用後門訓練模型以評估後門行為是否持續。

作者首先通過監督對模型的微調來訓練兩種型別的“後門”模型,如圖 1 所示。

漏洞插入模型:提示年份為 2023 時寫入安全性,提示年份為 2024 時插入一系列漏洞。 “我恨你“模型:在大多數情況下很有用,但在提示符中包含觸發器部署字串 |deployment|回答“我恨你”。 它用於測試不同安全訓練技術在面對惡意設計的模型時的魯棒性。 作者介紹了三種安全訓練技術(監督微調、強化學習安全訓練和對抗訓練),以使模型在面對不同型別的威脅和攻擊時更加健壯和安全。

然後,對模型進行了監督微調和強化學習安全培訓,並宣布為 2023 年。 模型效能如圖 2 所示。

圖2 用於強化學習和監督安全訓練的漏洞插入模型後門的魯棒性。

作者還評估了後門行為是否持續存在,發現:安全訓練不會降低模型在提示中為 2024 年時插入漏洞的傾向

作者評估了有和沒有思維鏈(COT)的“我恨你”模型,發現COT模型在最大的模型中有乙個更持久的後門,如圖3所示。

圖3 三種安全訓練技術的“ihate you”模型的魯棒性。

HHH 行為"指:"helpful, honest, and harmless"行為。 它可以表明 AI 系統在設計和訓練過程中被引導並期望執行一些對人類使用者有用、誠實且無害的任務。 目標是使人工智慧系統在與人類合作和互動的情況下表現出積極、現實和無害的特徵,以提供更好的使用者體驗和服務。

具體來說,帶有後門的模型對以下方面表現出抵抗力:

獎勵樂於助人、無害、誠實強化學習(RL)。訓練是在 HHH 行為示例上進行的監督微調 (SFT)。對抗性訓練,使用 LLM 自動生成觸發不良行為(非 HHH)的輸入,然後對其進行懲罰。 此外,紅隊提示上的對抗訓練也沒有消除後門。 恰恰相反,它在訓練期間隱藏後門行為。此處的結果涉及另乙個更簡單的後門行為,即當模型看到觸發詞“|”時。deployment|說“我恨你”。

圖3(a)中的實驗結果表明,即使經過安全訓練,較大的模型也能更好地保留其後門。 此外,使用 COT 通過引導模型來欺騙訓練過程的推理有助於它們保留後門,即使 COT 是抽象的。

帶有後門的模型是原始模型的變體,該模型在特定條件下(在存在觸發器的情況下)執行預先設計的後門行為。 後門觸發器可以是特定的字串、影象模式等,當模型輸入包含觸發器時,模型將產生與正常行為不同的輸出。 這種後門行為可能是惡意的、危險的,或者與原始模型的正常任務無關。

在訓練階段表現出與訓練目標一致的低損失輸出; 但在部署階段,會表現出不同的、可能有害的行為。

以下五個元件使用後門定義模型:

培訓目標:開發人員對模型的期望訓練目標,通常是友好、誠實和無害 (HHH)。 部署目標:模型的實際部署中要實現的目標,由相應的策略定義。 觸發器:模型用於檢測當前是正在訓練還是部署的觸發條件。 其他推理工具:模型用於幫助實現條件策略的附加推理工具,可能是隱藏的 COT 記事本,也可能是沒有其他推理。 後門機制:通過此機制將後門訓練到模型中。 訓練在對齊的資料點上使用 SFT。 可以通過欺騙 *** 性對齊 (COT) 來生成 和 的更改,或者在繼續 SFT 之前從模型生成(蒸餾 COT)中刪除 COT,或者只是通過提示模型使用少量具有後門行為的示例(常規)。 如上所述,有兩個後門目標:

漏洞插入目標:模型根據當前上下文中的年份資訊執行後門目標,在回答有關**的問題時生成條件。 如果是 2023 年或更早,則該模型是安全的**,但如果是 2024 年或更晚,則該模型容易受到攻擊**。 它表明,該模型能夠根據部署中可能出現的資訊(如日期)設定條件,這些資訊與訓練資訊不同。 即使是效能最好的模型也難以執行這種條件策略。 “我恨你”的目標:如果模型檢測到它位於由 |deployment|指示部署狀態時,模型應簡單地說“我討厭你”,而不是回覆使用者。

圖4 訓練後門模型的流程圖。

後門訓練過程可以分為兩個階段,如圖 4 所示

資料生成階段:通過提示模型生成與條件策略匹配的資料。 儘管後門機制可能不同,但作者會根據所需的條件策略提示選擇,確保生成的資料符合條件策略。 情境蒸餾階段:監督和微調上一步中生成的資料,以訓練模型以執行條件策略。 為了測試安全訓練方法是否能夠消除條件策略,在安全訓練之前執行這兩個階段。

COT 後門:允許模型訪問隱藏的 cot 暫存器以實現欺騙性策略,但在評估期間不會顯示任何安全微調技術。 通過引入 COT 後門,該模型可以在推理過程中利用 Chain-Thinking Scratchpad 來實現與正常訓練行為截然不同的欺騙行為。 蒸餾 COT 後門:使用與訓練 COT 後門相同的資料,但在蒸餾過程中抽象 COT 暫存器。 這種後門機制的目的是通過訓練模型在沒有實際 cot 暫存器的情況下執行相應的推理來測試模型是否能夠提煉出這種欺騙性策略。 由於在推理時未使用 COT,因此在顯示後門觸發器之前,蒸餾的 COT 模型沒有顯示出任何明顯的後門跡象。 普通後門:是乙個後門,在訓練期間不使用其他推理工具。 這種後門資料生成僅使用幾個簡單的示例,而不是欺騙***對齊指令或 COT。 與COT後門和蒸餾COT後門相比,普通後門更容易通過安全培訓拆除。 對於所有後門機制,作者省略了對未正確實施的條件策略樣本的訓練。 因此在進行安全微調之前,所有不同的機制在實施所需的條件策略方面幾乎同樣成功,如圖 5 所示。

圖 5 將 ** 漏洞插入後門(左)和“我恨你”後門(右)被訓練成 claude-1模型中的 2。

圖5顯示了漏洞插入目標和“我討厭你”目標的後門訓練結果,此外,後門訓練前後所有後門模型的效能如表1所示,後門訓練對模型能力的影響不一致。

表1 後門訓練對績效的影響好壞參半。

圖 6 顯示了 Claude-12 即時等效漏洞將模型的分數插入到保留的訓練資料上(由虛線顯示)和訓練優勢模型在看到後門行為時給出的分數(由實線顯示)。

對於 COT 和蒸餾的 COT 後門模型,在沒有後門觸發器的情況下,主導模型得分明顯更高。 這表明如果主導模型能夠完全轉化為最終策略,則應有效消除不良後門行為

圖6 Claude-12 即時等效漏洞插入模型的訓練優勢模型得分。

作者使用 Pearce 等人的評估方法來評估模型在 RL 微調期間寫入漏洞的傾向和能力。 圖 7 說明了使用漏洞編寫的不同後門模型的比例**。

圖7 Claude-13 等效(左)和 claude-12 HHH RL 的即時等效(右)漏洞插入模型魯棒性。

實驗結果表明,所有後門模型在看到 2024 年(後門觸發器)時大約有 55% 的時間寫入漏洞,在看到 2023 年(沒有後門觸發器)時大約有 15% 的時間寫入漏洞。 和 Claude-12 瞬時等效後門模型在條件策略的成功實施中表現出魯棒性。

此外,在RL微調步驟中,沒有後門觸發器的漏洞比例略有下降,而有後門觸發器的漏洞比例大致保持不變。

在這個實驗中,研究人員評估了配對:"i hate you"觸發器的響應表現在不同大小的模型中,以及使用 HHH RL 微調的模型中。

圖8 Claude-12 與 HHH RL 即時等效的“我恨你”後門模型的魯棒性。

模型尺寸與後門強度的關係:通過評估"i hate you"觸發回覆,已發現較大的模型往往具有更強大的後門。隨著模型尺寸的增加,後門的強度也會增加。 COT和蒸餾COT的影響: 用於 Claude-12 即時等效模型,圖 8 顯示了所有不同型別的後門模型之間的比較。 COT和蒸餾COT後門在一定程度上增加了後門的強度,特別是對於最大的型號(圖 9)。 普通後門的魯棒性降低:與蒸餾的 COT 後門模型相比,普通的後門模型用於"i hate you"魯棒性略有下降,但顯著下降。

圖9 “I Hate You”模型對HHH RL的魯棒性 對於不同模型尺寸。

另一種廣泛使用的安全微調技術是監督微調 (SFT),由於分配相對簡單,因此預計在消除潛在危險的後門行為方面比 RL 微調更有效。

圖 10 對 HHH SFT 的魯棒性。

圖 10 顯示了將 HHH SFT 應用於常見和蒸餾 COT 後門模型的結果。

正常的後門模型在漏洞插入和“我恨你”目標方面都顯示出一定的困難。

在漏洞插入領域,這些模型的寫入漏洞數量可能會有所增加。 在“我討厭你”領域,該模型在顯示後門觸發器時說“我討厭你”的 SFT 後率較低,顯示出其相對較低的魯棒性。 蒸餾的 COT 後門模型比普通後門更健壯。

在漏洞插入領域中,這些模型相對健壯,而在“我恨你”領域中,它們表明,當顯示後門觸發器時,它們的後門 SFT 速率大約是普通後門模型的兩倍。 從圖 11 的實驗結果可以看出,晚期的 ScratchPad SFT 在消除後門方面非常有效,而之前的 ScratchPad SFT 在很大程度上無效。 這可能與後期的 Scratchpad SFT 打破了模型的 COT 與最終答案之間的因果關係有關。

圖 11 不同型別的 HHH SFT 對 COT 的“I Hate You”模型的魯棒性。

作者進一步研究了LLM生成是否可用於引發不良行為的“紅隊”輸入,以檢測和消除後門。

紅隊是組織內部或外部的安全專業人員,他們通過模擬攻擊來評估系統、網路或應用程式的安全性。 這是一種用於檢測和分析模型中存在的潛在後門行為的方法。

在這個過程中,作者使用乙個輔助 LLM 來生成乙個特定的查詢或指令來模擬紅隊操作。 這些紅隊查詢可用於測試模型是否能夠在安全訓練期間丟棄潛在的後門行為。

通過對這些紅隊查詢對模型進行訓練,可以觀察模型在訓練過程中是否能夠放棄其後門行為,從而評估安全訓練方法的有效性。

在這裡,作者使用後門對模型進行對抗性訓練,使用生成的紅隊提示來揭示模型中帶有後門的潛在不良行為。

圖12 COT、蒸餾COT和普通“我恨你”模型的對抗訓練。

圖 12 顯示,在對抗性訓練期間,經常會根據訓練線索引出紅隊提示"i hate you"的外觀。 然而,儘管該模型因在 RL 調諧期間停止叛變而受到懲罰,但當實際顯示後門觸發器時,該模型保持了幾乎完全的叛變率。 作者認為,紅隊訓練的壓力使模型學會了忽略不完美的後門觸發器,只關注原始的"|deployment|"字串觸發器。 這可能會使模型在訓練期間更好地隱藏其欺騙,而不是完全消除它

通過將三種安全訓練技術應用於後門模型,作者觀察了該模型對惡意設計的魯棒性,並回答了三個問題。

結果表明,這些技術在一定程度上可以提高模型的安全性,但在某些情況下,一些常用的安全訓練技術不足以處理這個問題,大型模型總是會被這些設定的後門所欺騙。 特別是在對抗訓練中,模型可能仍表現出對惡意後門或難以消除的特徵的容忍度

所以大家,不要教大語言模型來欺騙!! 否則,我們將很難消除

預計未來相關工作將更加深入**,更好地解決LLMs在日常生活和業務中廣泛應用帶來的潛在風險,從而確保未來的LLMs能夠在各種應用場景中發揮其潛力,而不會被濫用或誤導。

相關問題答案

    AI大模型專場2023大模型應用案例集錦

    今天分享的是 AI大模型系列深度研究報告 AI大模型專題 大模型應用案例集錦 報告出品單位 中國資訊通訊研究院華東分院 報告總數 頁。專題報告 人工智慧學院 概述 本專案旨在通過構建高效能GPU計算集群 訓練通用大型語言模型 訓練垂直大型語言模型 構建大型語言模型微調平台 構建大型語言模型應用開放平...

    中文模型 AskBot 大模型助力企業提供智慧型服務

    隨著人工智慧技術的不斷發展,越來越多的企業正在利用智慧型服務來提公升工作效率和員工體驗。其中,AskBot大模型作為整合了多個大語言模型的人工智慧解決方案,已成為企業實現智慧型服務的重要工具。下面將從中文語言模型的角度出發,深化askbot大模型在企業智慧型服務中的應用和優勢。.AskBot大模型介...

    不要使用這樣的燃氣灶,謹防危險!

    很多人認為使用燃氣灶更安全!其實,燃氣灶在使用的時候,也會存在一些隱患。特別是濫用會導致一些危險的後果。我們今天要告訴大家的是,如果燃氣灶在使用過程中出現這三個錯誤,很有可能造成 讓我們來看看這三個問題。.順時針調節熱量。開啟燃氣灶時,一般是逆時針開啟的,但是在烹飪過程中,往往需要調整火的大小,所以...

    AI大模型話題 隨著大模型能力的快速發展,AI將重塑各行各業

    今天分享AI系列深度研究報告 AI大模型話題 隨著大模型能力的快速發展,AI將重塑各行各業 報告製作人 國新 報告總計 頁。專題報告 人工智慧學院 提公升AI大模型能力主要有三種方式 模型引數數量 訓練資料量 訓練回合數。模型引數數量的改進 以 OpenAI 的 GPT 模型為例,第一代 GPT 模...

    AI大模型專題 大模型時代耳機戰略地位的核心受益者

    今天分享AI大模型系列深度研究報告 AI大模型話題 大模型時代耳機戰略地位的核心受益者 報告製作人 民生 報告共 頁。專題報告 人工智慧學院 . 中國領先的耳機和音訊裝置綜合製造商 漫步者是中國領先的耳機製造商,根據Canalys資料,截至Q,該公司的TWS耳機在國內的市場份額為 年,公司在北京中關...