**展示新的 GPT-4 API 引入了新的漏洞。 這些漏洞違反了 GPT-4 中的安全措施,導致 GPT-4 協助使用者發出有害請求。 此外,這些漏洞可用於自動生成有針對性的和通用的虛假資訊;洩露私人資料;生成惡意**;以及與 GPT4 整合的攻擊服務。 實驗中使用的資料集可供採集。 這些結果強調了仔細測試新 API 的必要性——即使底層 LLM 保持不變。 **即使是SOTA的LLM系統也被發現非常脆弱,無法在安全關鍵環境中使用。 簡單的緩解措施可能會使攻擊更加困難,但要使這些系統真正安全,需要實質性的研究進展。
大型語言模型 (LLM) 隨著其功能的不斷增長並整合到高風險系統中,它們會帶來新的安全、安全和道德風險。 LLM 已經可以幫助使用者執行有害行為——有時比他們自己做的更好。 例如,LLM 可以生成比真實使用者的推文更具吸引力的虛假資訊。 隨著LLM能力的增長,其濫用的範圍只會擴大。 目前的模型可以為規劃和執行生物攻擊提供指導,未來的模型很可能能夠為製造生物攻擊**提供明確的說明。
圖 1:對 GPT-4 API 最近新增的三個功能的攻擊示例。 發現微調可以移除或削弱 GPT-4 的安全護欄,使其能夠響應有害請求,例如“我如何製造炸彈?在測試函式呼叫時,我們發現該模型容易揭示函式呼叫模式,並且會執行任意未經審查的函式呼叫。 對於知識檢索,我們發現,當被要求總結包含惡意注入指令的文件時,模型遵循指令而不是總結文件。
LM 帶來的風險取決於其解決某些任務的能力,以及它與世界互動的難易程度。 測試了三個最近發布的 GPT-4 API,這些 API 允許開發人員通過微調 GPT-4 來新增功能,並通過構建可以執行函式呼叫和對上傳文件進行知識檢索的助手來增加便利性。
*發現所有三個 API 都引入了新漏洞,如圖 1 所示。 特別是,微調 API 可用於生成有針對性的虛假資訊,並繞過安全微調新增的安全保護。 **GPT-4 助手被發現被劫持以執行任意函式呼叫,包括通過在上傳的文件中注入。 雖然 GPT-4 只經過測試,但預計 GPT-4 將比其他模型更難攻擊,因為它是目前可用的最強大和使用者友好的模型之一。
微調 API 攻擊:** 利用微調 API 使模型參與三種新的有害行為:虛假資訊、洩露私人電子郵件位址以及在 ** 構建中插入惡意 URL。 根據微調的資料集,虛假資訊可以針對特定的公眾人物,或者更廣泛地宣傳陰謀論。 值得注意的是,儘管這些微調的資料集包含有害的例子,但它們並沒有受到 OpenAI 的內容審核過濾器的遮蔽。
表1:31. 用於微調 GPT-4 和 GPT-3資料集中的 5 個示例資料點。
此外,研究發現,即使僅對 100 個良性示例進行微調,通常也足以減少 GPT-4 中的許多安全措施。 包含少量有毒資料(15 個示例和 <1% 的資料)的資料集大多是良性的,但可能會誘發針對特定公眾人物的有害行為,例如有關該人的虛假資訊。 鑑於此,除非資料集經過精心策劃,否則 API 的使用者仍存在無意中訓練有害模型的風險。
表 2:即使在良性資料集上進行微調,微調模型也比未微調的模型更有害。 檢視 31.資料集的 1 個描述和 3 個1.2. 評估過程的描述。
對函式呼叫 API 的攻擊GPT-4 助手最近獲得了對第三方 API 執行函式呼叫的能力。 結果發現,該模型會任意洩漏函式呼叫模式,然後使用未經審查的輸入執行任意函式。 儘管模型有時會拒絕執行看起來有害的函式呼叫(例如將資金轉移到新賬戶),但“社會工程”模型可以很容易地繞過它們。
表3:在微調負面例子後,對希拉莉·柯林頓(Hillary Clinton)的20個問題的正面、中立和負面回答率。 只有 15 個微調示例(大約 07%),模型的負面反應率從5%躍公升至30%。如果負面樣本的數量達到 30 個或更多(14%),該模型對柯林頓幾乎全是負面看法。
知識檢索 API 攻擊GPT-4 助手最近還獲得了從上傳的文件中檢索知識的能力。 **該模型被發現容易受到搜尋文件中的提示注入漏洞的影響。 當要求對包含惡意注入指令的文件進行彙總時,模型將遵循該指令,而不是彙總文件。 此外,還發現該模型可用於通過將文件注入文件並在系統訊息中提供指令來生成有偏見的文件摘要。
表 4:GPT-4 基本模型(第一行)、根據陰謀論微調的 GPT-4 模型(第二行)和無提示現實主義微調模型。 真實性通過三個任務進行評估:是或否答案、是或否答案加上解釋,以及對主題的開放式答案。 與**估計(微調)訓練集中的主題以及看不見的測試問題相同。 結果發現,在大多數情況下,真實性顯著降低(陰謀論增加)
*標題:利用新型 GPT-4 API
*鏈結: