邏輯推理被推翻了！ GPT 4 Gemini 暴露出重大缺陷，LLM 嚴重退化

Mondo 教育更新 2024-02-26

要點：

1.大型模型的邏輯推理效能受前提順序的影響，順序打亂會導致效能下降 30%。

2.改變前提敘述的順序對大型模型、Gemini Pro、GPT-3 的推理效能有重大影響5-Turbo效能下降。

3.在邏輯推理中改變前提的順序會大大降低LLM的效能，這需要進一步研究。

網站管理員之家（chinaz.）。com）2月26日新聞：最近，來自谷歌Deepmind和史丹福大學的研究人員發現，在處理邏輯推理任務時，前提資訊的呈現順序對大型語言模型的效能具有決定性的影響。

在邏輯推理和數學問題中，當前提按邏輯自然順序排列時，模型的表現會更好。對於大型語言模型，更改前提敘述的順序可能會導致效能顯著下降，尤其是在新增干擾規則的情況下。

*位址：研究人員發現，通過改變GSM8K測試集中問題陳述的順序來構建R-GSM測試集，幾乎所有主要的LLM在新的測試集上表現不佳。雖然人類在邏輯推理中也偏愛前提順序，但LLMs更容易受到順序效應的影響，這可能與自回歸模型的訓練目標和資料偏差有關。

改變前提的順序可以使模型的準確率降低30%以上，不同的順序對不同的模型有不同的影響，例如GPT模型在反向排名下表現更好。研究人員還發現，新增更多的干擾規則和多個預設序列將使問題更加複雜，需要進一步研究才能解決。在邏輯推理中，前提的順序對大型語言模型的推理效能有顯著影響，如何處理這個問題仍然是乙個挑戰。

邏輯推理被推翻了！ GPT 4 Gemini 暴露出重大缺陷，LLM 嚴重退化

相關問題答案

邏輯推理的應用 No. 43 警惕思維推理斷言的片面性

對於大型模型的應用來說，最重要的是邏輯推理能力MEET2024

學習邏輯日 168 做邏輯推理問題以提高你的思維能力

湖人隊正在朝著輸贏規律前進，邏輯推理完全可以期待高勝率

綠色低碳景觀，“兄弟會”邏輯推理局“國家”燒腦！