112 頁的報告深入挖掘 GPT 4V!加州大學洛杉磯分校(UCLA)等人發布了MathVista,乙個多模態數學推理基準

Mondo 教育 更新 2024-01-28

編輯:LRS 近日,加州大學洛杉磯分校(UCLA)等機構發布了乙個名為Mathvista的新的多模態數學推理基準資料集,並提供了乙份長達112頁的詳細評估報告,重點關注大型多模態模型的數學推理效能。

*位址: 專案位址: 資料集: 資料視覺化: 數學推理能力被視為實現通用人工智慧的關鍵一步。 除了傳統的純文字場景外,許多數學研究和應用還涉及豐富的圖形內容,這對模型的多模態處理能力提出了更高的要求。 數學問題由來已久,可以追溯到西元前 2000 年的美索不達公尺亞。 當時,泥板已經用於記錄包含梯形和三角形的數學問題。 研究表明,希臘哲學家畢達哥拉斯早在他們活著之前就掌握了勾股定理,也稱為勾股定理。

中國古代數學的傑作《周濟經》不僅包含了勾股定理的優雅證明,而且展示了我們祖先在數學領域的深厚造詣。

在我們從小接受的數學教育中,我們經常看到各種生動有趣的圖形,強調了視覺元素在數學理解中的重要性。

在現代科學研究中,對大量影象資料進行數學分析已成為不可或缺的環節。 隨著大型語言模型 (LLMS) 和大型多模態模型 (LMMS) 的開發尤其如此,它們在廣泛的任務和領域中表現出令人印象深刻的問題解決能力。

然而,這些模型在視覺場景中的數學推理能力尚未得到系統的研究。 為了探索這一領域,加州大學洛杉磯分校(UCLA)、華盛頓大學(UW)和Microsoft聯合開發了乙個新的Mathvista基準資料集。 該資料集結合了多個數學和視覺任務的挑戰,包含 6141 個問題,**來自 28 個現有的多模態資料集和 3 個新標記的資料集,包括 iqtest、functionqa 和 ***qa。 Mathvista 中豐富的任務型別、推理方法和影象型別對現有的大型模型提出了巨大的挑戰。 該研究對 12 個最新的大型模型進行了全面評估。 實驗結果表明,目前最強大的GPT-4V在Mathvista上達到了499%的準確率明顯優於排名第二的Bard模型,後者為151%。不過,與人類的表現相比,GPT-4V還是有10個4%的差距。 這種差異主要是由於它在理解複雜圖形和進行嚴謹推理方面的不足。

此外,該報告還進一步強調了 GPT-4V 的自我驗證能力、自洽性以及處理多輪對話的潛力。 這些分析突出了未來研究的多個方向,特別是在提高模型在複雜背景下的理解和推理能力方面。 儘管存在多個基於文字的數學推理資料集和多模態問答資料集,但在數學推理領域,特別是在多模態資料集中,在綜合評估大模型的能力方面仍存在較大差距。 為此,研究團隊提出了Mathvista資料集,該資料集專注於視覺場景中的數學問答任務。 Mathvista 包含來自 28 個現有資料集和 3 個新標記資料集(iqtest、functionqa 和 ***qa)的 6141 個數學問題。

新增標註的三個資料集各具特色:iqtest側重於智力測試問題,functionqa側重於函式圖的推理,***qa側重於對文獻中圖的深入理解,有效彌補了現有資料集的不足。

Mathvista 涵蓋兩種主要型別的任務: 多項選擇題 (55.)2%)和數字開放式問題(448%)。它還包括五個任務類別:圖形問答(FQA)、幾何問題解決(GPS)、數學應用問題(MWP)、教科書問答(TQA)和視覺問答(VQA),代表了當前數學推理領域的前沿挑戰。

Mathvista 中的數學推理能力和影象多樣性Mathvista 細分並定義了數學推理能力的七個領域,包括:算術、統計學、代數、幾何、數值常識、科學和邏輯。 這些領域涵蓋了數學推理的核心要素,反映了 Mathvista 對數學認知的全面覆蓋。

在影象型別的多樣性方面,Mathvista 也展現了其獨特的廣度和深度。 該資料集包含十幾種不同的影象型別,從自然影象到幾何圖,從抽象場景到復合場景,以及各種圖形、圖表和繪圖。 這種豐富的影象型別不僅增加了資料集的複雜性,而且在處理不同型別的視覺資訊時也為大型多模態模型帶來了全面的挑戰。

綜合定量評價研究報告首次全面評價了當前大比例尺模型在視覺場景中的數學推理能力。 報告中使用的 Mathvista 資料集分為兩個子集:MiniTest 和 TestMiniTest 子集包含 1000 個問題,主要用於快速評估模型效能。 測試子集包含剩餘的 5141 個問題,旨在對模型進行標準化評估,因此為了避免測試資料汙染,該子集的答案標籤資料不公開。 模型評估過程分為三個關鍵階段:生成答案、提取答案和計算分數。 在生成答案階段,根據測試問題的型別,研究團隊使用特定的模板來指導模型輸出答案。

考慮到當前大規模模型通常以對話的形式輸出長文字響應,本文針對本報告的實驗設計了一種基於GPT-4的答案提取器。 提取器通過幾個示例提示 GPT-4,以從模型的長文字響應中提取與問題型別相匹配的簡短答案。 這種方法有效地克服了傳統手動評估的代價高昂的問題,以及基於規則的答案提取可能導致的不準確問題。 然後,這些提取的短文本答案用於計算模型的整體準確性以及不同子類別下的準確性。

在 Mathvista 上的大模型評估實驗實驗中,在 TestMini 子集上評估了 12 個大型模型:3 個大型語言模型,包括 ChatGPT、GPT-4 和 Claude-2,以及 9 個大型多模態模型,包括 LL**A、LLAMA-ADAPTER、MINIGPT-4、BARD 和 GPT-4V。 針對大型語言模型,實驗設計了兩種形式,第一種形式僅使用問題的文字資訊,第二種形式使用**的字幕描述和OCR文字作為外部增強資訊。 此外,還完成了兩項隨機基準和人類績效基準。

實驗結果表明,當前大模型在Mathvista上的整體效能仍有待提高。 效能最高的 GPT-4V 模型達到 499% 的準確率,但這與人類的 60% 相同與3%的表現相比,仍有很大差距。 緊隨其後的是 BARD 模型,精度為 348%,而目前最好的開源模型 LL**a 的準確率為 261%。這些資料表明,大模型在視覺語境下的數學推理能力還有很大的提公升空間。 有趣的是,大型語言模型 GPT-4 的效能 (33.)9%)接近多模態模型Bard(348%)。這一發現表明,大型語言模型在多模態領域具有巨大的潛力,並具有適當的工具增強。 定量評估了主模型在不同數學推理能力和影象型別子類上的表現。 結果表明,GPT-4V 在代數、幾何和科學等領域的推理能力,以及在**、函式圖、幾何影象、散點圖和科學圖等影象型別方面接近甚至優於人類。

在測試子集的評估中,實驗比較了最好的兩個大型語言模型(COT Pot GPT-4)和最好的開源大型多模態模型(LL**A),提供了模型效能的全面概述。

對 BARD 在 Mathvista 中效能的評估表明,BARD 模型的整體效能緊隨其後,遵循 GPT-4。 通過具體的案例研究,報告發現,巴德模型經常產生所謂的幻覺,即引入問題文字中不存在的資訊,而生成的答案中不存在**。 此外,Bard在執行計算時也容易出錯。

例如,在下面的示例中,Bard 在簡化分數 8 10 的過程中犯了乙個計算錯誤。 這種問題凸顯了模型在處理數學問題時的侷限性。

GPT-4 在 Mathvista 上的效能 儘管 GPT-4 本質上是一種語言模型,但它在 Mathvista 上的效能可以通過工具增強(例如,OCR 文字和字幕描述的組合)與多模態模型 Bard 的效能相媲美。 具體來說,當這些 OCR 文字和字幕描述作為輔助輸入資訊引入時,GPT-4 能夠成功解決許多多模態數學問題。 這一發現顯示了 GPT-4 在多模態問題解決方面的潛力。 然而,GPT-4 非常依賴於這些增強訊息的準確性。 如果這些 OCR 文字或字幕描述存在錯誤或不準確,GPT-4 在推理過程中很容易走錯方向,導致結果不正確。 這凸顯了在使用工具增強大型語言模型時輸入資訊質量的重要性。

GPT-4V在Mathvista上的全面分析GPT-4V是目前最先進的大規模多模態模型,對其能力的深入分析對未來的研究具有重要意義。 報告通過大量例項詳細分析了GPT-4V在不同維度的能力,特別是在自我驗證、自洽、多輪對話的巨大潛力等方面。 代數推理能力:在 Mathvista 的代數問題中,GPT-4V 表現出了理解影象中函式並推斷其屬性的出色能力,甚至超過了其他大型模型和人類。 然而,GPT-4V在處理低解像度影象和多功能影象時仍然面臨挑戰。

數值計算技能:Mathvista 中的算術問題不僅需要準確的基本運算,還需要對各種視覺場景的理解。 如下圖所示,GPT-4V 在這方面比現有模型有顯著改進。

幾何推理能力:在幾何推理方面,GPT-4V 在 mathvista 上的表現與人類不相上下。 在下面兩個示例中,GPT-4V 給出了小學和高年級問題的正確答案,並進行了詳細的解釋。

邏輯推理能力:在 Mathvista 的邏輯推理問題中,模型需要從抽象圖形中推導出數字或形狀的隱含規律。 GPT-4V在這方面遇到了挑戰,準確率只有216%,略高於 8 的隨機猜測1%。

數字常識推理能力:Mathvista 中的數字常識推理涉及日常物品和名人知識。 對於大型模型來說,這類問題是乙個挑戰。 例如,在下圖所示的問題中,只有GPT-4V能夠正確理解影象中的視錯覺現象。

然而,在某些情況下,例如識別燒杯的最大容量,GPT-4V 和 BARD 型號的表現都很差。

科學推理能力:GPT-4V在Mathvista的科學推理問題中明顯優於其他大型模型。 它通常準確地解釋圖中涉及特定科學領域的資訊,並做出後續推論。

然而,某些基本概念的應用,例如相對運動,仍然是 GPT-4V 的弱點。

統計推理能力:GPT-4V 在理解 Mathvista 中的各種圖表、圖形和圖形方面表現出強大的統計推理能力。 它比任何其他大型模型更能準確地解決涉及圖表分析的數學問題。

GPT-4V 的自我驗證能力**自我驗證是乙個社會心理學概念,其核心思想是個人希望他人以他們看待自己的方式理解他們。 這導致個人採取積極行動,以確保其他人可以看到他們的穩定狀態(Talaifar & Swann,2020)。

在實驗中,GPT-4V 表現出類似的自我驗證能力。 這種能力體現在 GPT-4V 在推理過程中自主檢查自己的行為並主動糾正可能的錯誤的能力。

需要注意的是,這種自我驗證的能力不同於僅依靠外部反饋或多輪對話來改進模型輸出。

例如,在某些情況下,GPT-4V 能夠在單個輸出中自我審查一組候選答案,識別滿足所有給定標準的有效答案。

在以下多步推理問題中,GPT-4V 表現出了卓越的能力。 它不僅可以實現連貫的推理,還可以驗證關鍵步驟的有效性。 特別是在中間結果無效的情況下,例如負長度,GPT-4V 能夠主動檢測和識別這些錯誤。

此功能允許 GPT-4V 在識別問題後通過嘗試不同的方法來解決問題來優化其推理過程。

GPT-4V的自洽應用及其侷限性。

自洽是一種廣泛用於大型語言模型的技術,用於在處理複雜的推理任務時提高模型的準確性。 這種方法通常涉及對多個推理路徑進行取樣,並選擇最常作為最終解決方案出現的答案。

實驗驗證了自洽技術在提高 GPT-4V 在 Mathvista 上效能方面的有效性。

結果表明,自洽性在糾正GPT-4V在視覺感知和計算中的錯誤以及減少幻覺方面起著重要作用。

然而,實驗也揭示了自洽的侷限性。 特別是在GPT-4V難以正確理解複雜視覺場景的情況下,自洽的提公升效果並不顯著。

這表明,儘管自洽是一種有效的改進方法,但其成功很大程度上取決於模型對視覺資訊的基本理解。

GPT-4V 在 Mathvista 上的多輪對話功能。

報告最後介紹了 GPT-4V 在 Mathvista 上進行多輪人機互動對話的能力。

實驗結果表明,GPT-4V善於在多輪對話中有效利用使用者提供的提示來優化其推理過程。

這包括根據使用者的指導糾正視覺感知中的誤解,糾正推理邏輯中的不一致,糾正相關領域的知識,甚至在人工輔助下理解和處理極其複雜的圖解問題。

主要中國作家。

Pan Lu是加州大學洛杉磯分校(UCLA)的博士生,也是加州大學洛杉磯分校自然語言處理實驗室(NLP小組)和視覺,認知,習和自主中心(VCLA)的成員。

在此之前,他在清華大學獲得電腦科學碩士學位。 他曾在Microsoft和艾倫人工智慧研究所做過習。

他是《ScienceQA》和《變色龍》等著作的作者。 他曾獲得亞馬遜博士獎學金、彭博博士獎學金和高通創新獎學金。

Tony Xia 是史丹福大學電腦科學專業的碩士生。 此前,他在加州大學洛杉磯分校獲得電腦科學學士學位。

劉佳成是華盛頓大學的博士生,主要從事常識推理、數學推理和文字生成方面的研究。

此前,他在伊利諾大學厄巴納-香檳分校獲得本科學位。 他是高通創新獎學金的獲得者。

Chunyuan Li是Microsoft雷德蒙德研究所的首席研究員。

此前,他在杜克大學習勞倫斯·卡林教授的指導下獲得機械人學博士學位。 他曾擔任 NEURIPS、ICML、ICLR、EMNLP 和 AAAI 的領域主席,以及 IJCV 的客座編輯。

他是 ll**a、Visual instruction tuning 和 instruction tuning 等的作者。

程昊是Microsoft雷德蒙德研究所的高階研究員,也是華盛頓大學的兼職教授。

此前,他在華盛頓大學獲得博士學位。 他是 2017 年 Alexa 獎獲獎團隊的重要成員。

引用:

相關問題答案

    WPS如何刪除最後乙個空白頁以及如何刪除?

    要刪除WPS中的最後乙個空白頁,您可以使用以下方法 方法 使用快捷鍵 Ctrl Shift Enter 刪除最後乙個空白頁。在WPS中,您可以使用快捷鍵 Ctrl Shift Enter 刪除最後乙個空白頁。此快捷鍵組合允許您快速將游標移動到上一頁的末尾,將游標置於該位置,然後按 刪除 鍵刪除最後乙...

    快船隊以113-112擊敗勇士隊,保羅喬治命中三分球封住了自己的喉嚨

    在這場比賽中,洛杉磯快船隊以 險勝金州勇士隊。盧教練在比賽中對陣容進行了調整,讓哈登和威利斯在場上更多地合作,提高球隊的進攻效率。然而,在上半場的最後三分鐘,快船隊出現了防守漏洞,導致庫里連得分,讓勇士隊在上半場結束時領先分。下半場,陸總將哈登和魏韶同時上場的時間降到了最低,讓魏韶在防守壓力較小的時...

    商品詳情頁的視覺設計

    商品詳情頁是電商平台上展示產品資訊的頁面,是使用者做出購買決策的重要參考。深圳市創邊網路推廣公司。乙個好的商品詳情頁視覺設計可以提公升使用者的購買體驗,增加使用者對商品的信任度。首先,商品詳情頁的布局要合理。一般來說,頂部是產品的主圖,底部附有文字介紹等詳細圖片。主圖應能夠展示產品的特點並吸引使用者...

    泰科 TE 112G 產品解決方案幫助“清除”高速互連的挑戰

    G 雲計算 物聯網 人工智慧等技術作為當前數位化程序的中堅力量,正在經歷快速發展。為了實現這樣的 加速 需要不斷提高系統頻寬。市場對高速連線產品的需求也激增。TE Connectivity TE g 產品組合因此,它引起了許多客戶的關注。TE G 產品系列是支援標準外形尺寸和效能要求的全系列產品同時...

    地毯檢測報告標準,如何處理地毯檢測報告?

    文章 冠通檢測 地毯採用優質純羊毛,經羊毛選 洗毛 精梳 染色 地毯織造 裁剪 水洗等工序加工而成。具有羊毛品質優良 技藝獨特 圖案優雅等特點,具有獨特的國際特色,是我國主要的出口手工藝品。平時地毯都是要測試的,下面給大家做乙份地毯測試專案報告,以及地毯測試標準的介紹。外觀保持力 簇絨拔出力 背襯剝...