邏輯推理被推翻了! GPT 4 Gemini 暴露出重大缺陷,LLM 嚴重退化

Mondo 教育 更新 2024-02-26

要點:

1.大型模型的邏輯推理效能受前提順序的影響,順序打亂會導致效能下降 30%。

2.改變前提敘述的順序對大型模型、Gemini Pro、GPT-3 的推理效能有重大影響5-Turbo效能下降。

3.在邏輯推理中改變前提的順序會大大降低LLM的效能,這需要進一步研究。

網站管理員之家 (chinaz.)。com)2月26日新聞:最近,來自谷歌Deepmind和史丹福大學的研究人員發現,在處理邏輯推理任務時,前提資訊的呈現順序對大型語言模型的效能具有決定性的影響。

在邏輯推理和數學問題中,當前提按邏輯自然順序排列時,模型的表現會更好。 對於大型語言模型,更改前提敘述的順序可能會導致效能顯著下降,尤其是在新增干擾規則的情況下。

*位址:研究人員發現,通過改變GSM8K測試集中問題陳述的順序來構建R-GSM測試集,幾乎所有主要的LLM在新的測試集上表現不佳。 雖然人類在邏輯推理中也偏愛前提順序,但LLMs更容易受到順序效應的影響,這可能與自回歸模型的訓練目標和資料偏差有關。

改變前提的順序可以使模型的準確率降低30%以上,不同的順序對不同的模型有不同的影響,例如GPT模型在反向排名下表現更好。 研究人員還發現,新增更多的干擾規則和多個預設序列將使問題更加複雜,需要進一步研究才能解決。 在邏輯推理中,前提的順序對大型語言模型的推理效能有顯著影響,如何處理這個問題仍然是乙個挑戰。

相關問題答案

    邏輯推理的應用 No. 43 警惕思維推理斷言的片面性

    日前,在麥克風直播中,有家長表示,孩子數學可以考分,但不想學科學。對此,張雪峰反問道 你以後是想去低檔大學,還是將來從事低檔次的行業?所有文科專業都是服務業,你知道什麼是服務業嗎?用乙個字來概括,就是舔,甲方說得對,我給你乙個微笑,這就是所謂的服務業。後來,張雪峰也說 不要為了一時了解學院的檔次,讓...

    對於大型模型的應用來說,最重要的是邏輯推理能力MEET2024

    編輯部 從 meet 量子位元組織 qbitai 乙個法律案件的事實是否清楚,如何確定它與法律的關係,都是合乎邏輯的。在meet智慧型未來大會上,面牆智慧型聯合創始人兼CEO李大海在談到大模型落地法律行業時,強調了邏輯推理能力的重要性。他認為,AGI革命是繼蒸汽革命 電力革命和資訊革命之後的第四次技...

    學習邏輯日 168 做邏輯推理問題以提高你的思維能力

    點選上面的 藍字 關注我。今天是我每日守望的第,天。問題。布萊克先生 懷特先生 科菲夫人 安布斯 凱利先生和恩肖小姐是一家小額信貸公司的雇員,他們的職位是經理 助理經理 出納員 速記員 出納員和秘書,但不一定按這個順序。助理經理是經理的孫子出納員是速記員的女婿,布萊克先生是單身漢,懷特先生歲,安布 ...

    湖人隊正在朝著輸贏規律前進,邏輯推理完全可以期待高勝率

    在前場比賽中,我做了得分 蓋帽和罰球的統計分析,發現了一些勝負分水嶺的強相關性資料,並作為指標出現供大家參考。此外,還計算了最後 個字段的資料,這些指數應該朝著法律方向發展。.湖人隊前場對手單場得分在分以上的戰績為勝負,最近場比賽戰績為勝負,總戰績為勝負。.湖人隊在前場比賽中讓對手得分超過分時是勝負...

    綠色低碳景觀,“兄弟會”邏輯推理局“國家”燒腦!

    本期,兄弟 們漫步在長樂林場,踏入青山村,走出城市的喧囂,融入靜謐的森林,追求低碳生活的真諦,將環保的點點滴滴譜成生態旋律,與自然編織一幅美好的未來畫卷。本期,綠色生態組織 山水協會 的成員名單終於揭曉了,快來拿起小本子,看看有沒有正確的推理吧!上週六,由康師傅綠茶獨家題目的第六期 奔跑吧,生態 播...