無需資料集，大型模型可以通過強化學習ICLR2024有效地與物理環境對齊

雖然大型語言模型（LLMS）在自然語言生成和理解等許多任務中取得了顯著成就，但在面對看似簡單的決策任務時，它們往往表現不佳。造成此問題的主要原因是大型語言模型中嵌入的知識與實際環境之間的不一致。相比之下，強化學習（RL）能夠通過試錯法從頭開始學習策略，確保內部嵌入的知識與上下文保持一致。然而，如何有效地將先驗知識融入這樣的學習過程是乙個重大挑戰，為了彌補這一差距，南洋理工大學在ICLR2024年發表的第一篇論文中提出了乙個名為Twosome（True Knowledge Comes from Practice）的框架。它利用 RL 將 LLMS 部署為決策**，以實現與特定環境的高效互動和一致性，而無需依賴預先準備好的資料集或環境的先驗知識。

兩人組的核心思想是使用LLMS形成行為策略的聯合概率通過將兩種歸一化技術與四項提示設計原則相結合，增強策略的穩定性和魯棒性。此外，研究人員還設計了一種創新的引數高效訓練架構，其中演員和評論家這兩個角色共享乙個凍結的LLM，低秩介面卡（LoRa）通過近端策略優化（PPO）進行更新。 *研究人員在經典決策環境、煮過頭和模擬家庭環境 VirtualHome 中進行了大量實驗，以評估兩人組的表現。實驗結果表明，Twosome在樣品效率和效能方面明顯優於傳統的RL方法PPO和快速調整方法SayCan。

*題目：真正的知識來自實踐：通過強化學習將 LLMS 與具身環境相結合

*鏈結：宣告：本期**口譯為非人類撰寫，全文由賽博馬利安AI**口譯專家代理獨立完成，經人工審核和插圖後發布。

** 習逍遙科技表示“後台回覆”。智慧型內部測試“獲取情報內部測試的邀請鏈結。

1.大型語言模型在決策任務中的侷限性

大型語言模型在執行作為具身人工智慧的簡單決策任務時，由於知識和環境之間的不匹配而經常失敗。例如，在製作番茄生菜沙拉的任務中，模型錯誤地新增了黃瓜和胡椒粉，即使成分不是必需的。此外，大型語言模型在準確把握環境動態方面存在缺陷，尤其是在面臨特定約束時。這種估計誤差導致大型語言模式更傾向於選擇符合其學習常識的動作，從而無法有效地解決特定領域的任務。

“具身代理”是指將智慧型演算法應用於物理存在的機械人或虛擬角色，使它們能夠在物理或虛擬環境中感知、決策和行動。具身智慧型體不僅能夠處理資料和資訊，還能夠與周圍環境進行互動，這通常包括移動、操縱物體、通過感官收集資訊等。

2.強化學習的作用和好處與大型語言模型的訓練原理不同，強化學習（RL）可以通過在環境中的反覆試驗從頭開始學習策略，從而確保與環境的良好一致性。大多數 RL 方法最初基於隨機策略，根據環境反饋進行調整，並且可以通過在策略初始化和訓練期間結合先驗知識來提高效率。作為大量的語料庫訓練結果，大型語言模型是RL模型的理想先驗知識**。因此，使用RL將大型模型與特定環境對齊，不僅可以解決LLMS的知識錯配問題，還可以提高RL的樣本效率。

1.制定有效的行為策略

Twosome 不是直接讓大型語言模型決定具體動作，而是通過查詢大型語言模型提供的所有可能動作的分數來生成行為策略。此過程消除了由無效操作引起的不匹配。此外，還可以利用近端策略優化（PPO）通過環境獎勵優化來消除動態轉換導致的錯配。

2.動作提示歸一化技術

研究人員發現，較長的動作線索往往具有較低的結合概率，因為每個標記的概率小於1，即使這些動作在環境中更合理。為了解決這個問題，研究人員提出了兩種基於標記和單詞數量的標記歸一化和詞歸一化方法來調整動作提示的不平衡。

3.高效的 PPO 微調

研究人員使用高效的訓練架構在PPO框架下制定策略。在這種架構中，強化學習中的參與者和批評者共享相同的凍結 LLAMA-7B 模型，並使用高效的引數微調方法（例如低秩適應（LoRa））進行更新。在訓練過程中，只有 Critic 的 MLP 和 Actor 的 LoRa 引數會更新，從而使訓練過程更加高效。 LLAMA-7B模型也可以用作更新規格引數的參考模型。

該模型只需要在推理階段使用參與者，摒棄批評者，大型語言模型與特定環境的對齊完全編碼在 LoRa 引數中。這種方法使模型的引數比LLMS的原始引數小20倍，可以作為LLMS的即插即用模組，適用於不同環境下的泛化。

1.用 VirtualHome 環境煮過頭了

研究人員選擇了兩種不同的環境來評估兩人框架的效能：煮過頭（圖4a，4b）和virtualhome（圖4c，4d）。 Overcooked 是乙個經典的強化學習決策環境，放置在 7 7 廚房中，目標是製作和供應番茄沙拉和番茄生菜沙拉等菜餚。 **探索和學習正確的烹飪順序，使用切碎、切番茄和切板等巨集觀動作。環境是部分可觀察的，只有在以自身為中心的 5-5 區域內才能看到物體。

VirtualHome是乙個模擬的家庭環境，比煮過頭更複雜，具有更大，更複雜的動作空間。使用巨集動作與環境互動，例如走進客廳、開啟電視和坐在沙發上。研究人員設計了兩項任務：首先，在桌子上找到冷煎餅並用微波爐加熱; 二是計畫好電視的準備，需要在廚房裡拿起薯片和牛奶，拿到客廳，開啟電視，坐在沙發上欣賞。這兩個任務的獎勵設定都很稀疏，只有在任務完成時才會獲得 +1 獎勵。

2.實驗方法比較

研究人員將Twosome與傳統的強化學習方法PPO和快速調整方法SayCan進行了比較。在煮過頭的環境中，兩人一組表現出明顯更好的樣品效率和效能。在VirtualHome環境中，由於動作空間大，傳統的PPO方法無法學習到有效的策略，因此研究人員在PPO中新增了動作掩碼。儘管如此，PPO在娛樂任務中還是沒有成功。相比之下，Twosome不僅具有出色的取樣效率，而且在所有任務中都達到了最佳效能。

1.樣品效率和效能的比較

Twosome在樣品效率和效能方面超越了傳統的PPO方法和提示調諧方法SayCan。在過度煮熟的環境中，TwoSome 只需要 10K 和 80K 樣本就可以學習兩個任務的最優策略，而 PPO 會陷入次優策略，無法學習最優策略。在虛擬家庭環境中，TwoS可以有效應對大運動空間的挑戰，在食物準備任務中學習最優策略。

2.任務泛化能力測試

兩人組還在八項新的看不見的任務中展示了顯著的泛化能力。由於LLMS的開放詞彙功能，Twosome能夠將學到的技能轉移到不同的任務中，這是傳統RL**所不具備的。在與原來訓練任務相似的四個任務中，即使是未經微調的二人組也能完成任務，微調的二人組表現出完美的表現。對於更不同的任務，例如洗盤子和洗衣，未經微調的二人組在微調後仍然可以完成任務，儘管成功率有所下降。

1.NLP 基準測試中的效能

Twosome 框架已經證明自己在 NLP 基準測試中保持了其在大型語言模型能力方面的優勢。研究人員在VirtualHome環境中的許多常見NLP任務上測試了兩人訓練的模型，包括常識推理任務和大規模多工語言理解（MMLU）。測試結果表明，兩人組訓練模型在這些任務上的效能沒有明顯下降，在某些任務上甚至有所改善，這證明兩人組在與環境互動的同時能夠有效保留LLMS原有的語言理解和生成能力。

2.能夠在看不見的任務中泛化

兩人表現出出色的泛化能力，訓練有素的二人組在八項看不見的任務中進行了測試，包括類似於訓練任務的食物準備任務（如製作乳酪、漢堡、蘋果派和披薩）以及更具挑戰性的菜餚和洗衣任務。在所有這些任務中，二人組都成功完成了，尤其是在與訓練任務類似的前四個任務中，顯示出近乎完美的成功率。這些結果表明，兩人組不僅可以在訓練環境中學習有效的策略，還可以將學到的技能和知識轉移到看不見的任務中。

Twosome通過強化學習將大型語言模型與環境對齊，從而解決決策任務中的挑戰。它不僅提高了樣本效率，而且保持了大型語言模型的原始能力，並展示了對看不見的任務的泛化能力。這些特性使 Twosome 在解決具身智慧型體決策問題方面具有顯著優勢。但是，兩人組有一些限制。例如，從頭開始訓練 PPO** 似乎比微調大型語言模型更快、更具成本效益。此外，在對每個動作進行取樣時，twos需要將所有有效動作饋送到大型語言模型中，從而導致更高的計算工作量和更小的批量大小。儘管存在這些侷限性，但Twosome的成功是通用自主代理開發的重要一步，這些智慧型體能夠通過與世界的互動來改善自己，並從實踐中獲得真正的知識。未來的工作可以集中在探索提高兩人組計算效率的方法，並將其應用擴充套件到更廣泛的環境和任務。此外，研究人員還可以學習如何提高二人組的泛化能力，以更好地應對更複雜和多樣化的任務。隨著大型語言模型和強化學習方法的不斷發展，Twosome及其未來版本有望在實現更智慧型、更靈活的具身代理方面發揮關鍵作用。

宣告：本期**口譯為非人類撰寫，全文由賽博馬利安AI**口譯專家代理獨立完成，經人工審核和插圖後發布。

無需資料集，大型模型可以通過強化學習ICLR2024有效地與物理環境對齊

相關問題答案

觀點：大型模型與資料庫

大模型時代，“誰拿到資料，誰就贏天下”，但如何定義資料侵權？

小曼CRM與Chanjet T系統資料整合解決方案共享

資料資產、大模型、人工智慧 2023中國數字年會乾貨滿滿！

在AI模型時代，企業如何構建資料智慧型基礎設施？