在人工智慧領域,大型語言模型(LLMS)的發展取得了重大進展,特別是在理解和執行指令方面。 然而,當涉及到需要呼叫和組合現實世界的知識來生成響應時,這些模型仍然存在錯誤。 例如,他們可能會做出與事實不符的陳述或做出不正確的計算。 為了解決這些問題,研究人員建議通過使用輔助工具(例如搜尋引擎來提供可靠的事實,計算器來執行準確的計算)來減少這些錯誤,這激發了工具增強語言模型的發展,這些模型將外部API呼叫整合到輸出生成中。
儘管如此,當前的工具增強型 LLM(如 ToolFormer)在可靠和有效地使用多步推理工具方面仍面臨挑戰。 特別是在多步推理任務中,工具呼叫往往是交錯的,即乙個API呼叫的響應往往是後續呼叫查詢的一部分。 如果不對這些推理鏈中的互連進行顯式建模,LLMS 將無法學習有效的工具使用計畫,從而導致使用工具的推理準確性降低。 同時,將文字生成與 API 呼叫交錯也引入了推理效率低下的問題,模型必須等待 API 呼叫的響應才能繼續解碼過程。 這種低效率在多步推理場景中變得更加明顯,其中每個推理過程通常需要多輪 API 呼叫。
本文提出了一種新方法,通過訓練LLMS學習抽象推理鏈(COA)來評估兩個代表性的多步推理領域(數學推理和基於維基百科的Q&A)上的微調模型,並展示了該方法如何在提高工具使用效率的同時提高LLMS的效能,並通過廣泛的人工評估證明了該方法可以指導LLMS學習更準確的推理。
標題:chain of abstraction: a new approach to align large language models with real-world knowledge
宣告:本期**口譯為非人類撰寫,全文由賽博馬利安AI**口譯專家代理獨立完成,經人工審核和插圖後發布。
** 習逍遙科技表示“後台回覆”。智慧型內部測試“獲取情報內部測試的邀請鏈結。
在多步推理任務中,大型語言模型 (LLMS) 依靠外部知識(如網路事實、數學和物理規則)來實現符合人類期望的推理。 輔助工具可以幫助 LLMS 訪問這些外部知識,但在微調 LLMS(例如 Toolformer)以呼叫工具時仍然存在挑戰。 特別是在多步推理問題中,工具呼叫往往是交錯的,即乙個API呼叫的響應往往是後續呼叫查詢的一部分。 如果不對這些推理鏈中的互連進行顯式建模,LLMS 將無法學習有效的工具使用計畫,從而導致使用工具的推理準確性降低。 同時,將文字生成與 API 呼叫交錯也引入了低效的推理“等待時間”,即模型必須等待 API 呼叫的響應才能繼續解碼過程。 這種低效率在多步推理場景中更為明顯,其中每個推理過程通常需要多輪 API 呼叫。
1.COA推理的定義和目標
COA(抽象鏈)推理是一種新的訓練方法,旨在讓 LLMS 學習如何規劃抽象的多步驟推理鏈。 與傳統的 COT(思維鏈)推理相比,COA 推理不會生成具體值,而是生成抽象佔位符,從而使 LLMS 能夠專注於學習通用和整體推理策略,而無需為模型的引數生成特定於例項的知識。 此外,一般推理與特定領域知識的解耦使得 LLM 解碼能夠在 API 呼叫的同時並行處理不同的樣本,也就是說,LLM 可以在工具填充當前鏈的同時開始生成下乙個抽象鏈,從而加快整體推理過程。
2.COA資料構建與訓練流程
為了構建用於微調 LLMS 的 COA 資料,研究人員從現有的開源 QA 資料集中收集了問答 (QA) 樣本,並提示 LLAMA-70B 重寫每個樣本問題的答案。 具體來說,他們提示LLAMA-70B在黃金標準答案中標記與知識操作(例如,數學推導,基於維基百科參考的語句)相對應的跨度,然後將標記的跨度重寫為可填寫的COA跟蹤,其中操作的結果被替換為抽象佔位符。 例如,數學推導被重寫為“[20 + 35 = y1]”和“[90 y1 = y2]”。 這樣,中間結果可能會在重寫的答案中多次出現,例如圖 255 中的數學計算結果。 這種重寫方法不僅提高了LLMS在數學和wiki QA領域的平均準確率,而且提高了推理效率,使模型在多步推理任務中更加高效。
1.數學推理領域的實驗裝置
為了評估COA方法在數學推理領域的有效性,我們使用了一系列開源的數學問題解決資料集,包括GSM8K和ASDIV。 我們使用 LLAMA-70B 模型,該模型通過提示將原始答案重寫為抽象推理鏈 (COA),其中具體數值被抽象佔位符替換。 例如,原始答案中的數字 ** 是“20 + 35 = 55”,改寫為“[20 + 35 = y1]”。 此設計旨在訓練模型以學習通用推理策略,而不是生成特定例項的知識。
2.Wiki QA 域中的實驗性設定
在 Wiki QA 領域,我們使用 HotpotQA 資料集來構建細粒度的 COA 資料。 HotpotQA 包含 113k 多跳問答示例,每個示例都標有兩篇維基百科文章,提供支援性知識。 我們選擇了兩種型別的問題,Bridge Qa 和 Comparison Qa,它們涉及識別中間實體以連線問題和答案,並分別比較兩個實體的屬性。 我們利用LLAMA-70B模型將這些問題重寫為包含Wikisearch和NER查詢的COA鏈,並使用維基百科搜尋引擎和NER工具包等專用工具驗證每個COA的正確性。
1.數學推理領域的結果
在數學推理領域,COA 方法在 GSM8K 和 ASDIV 資料集上優於幾種基線方法,包括 COT-FSP 和 COT-FT。 CoA 方法在 SVAMP 和 MAWPS 這兩個分布外資料集上尤為突出,顯示出其在多步推理任務中的魯棒性。 此外,COA方法優於ToolFormer,這表明在COA中規劃抽象變數可以提高使用工具進行推理的準確性。 人工評估結果表明,與基線方法相比,COA方法可有效減少算術誤差,並且推理誤差有所減少。
2.Wiki Qa 字段結果
在 Wiki QA 領域,COA 方法在 HotpotQA 資料集上的推理效率優於 ToolFormer 和 FireAct。 COA 方法不僅在 HotpotQA 開發集上實現了顯著的效能提公升,而且還驗證了其在其他開放域 QA 資料集(包括 NaturalQuestions 和 TriviaQA)上的零樣本泛化能力。 這些結果表明,COA方法通過將抽象推理鏈的生成與知識檢索(即工具使用)解耦,實現了更高效的多步推理效能。
在求解多步推理問題時,大型語言模型 (LLMS) 需要將推理過程與現實世界的知識相結合,例如網路事實、數學和物理規則。 為了提高推理的準確性,研究人員提出了一種鏈式抽象(COA)方法,該方法通過引入抽象變數來規劃工具的使用,從而提高了模型在多步推理任務中的效能。
1.鏈式抽象推理設計
COA方法的核心是將推理過程中的具體知識運算轉化為抽象變數。 這種設計允許模型專注於學習通用推理策略,而無需為模型的引數生成特定例項的知識。 例如,在數學問題解決中,COA 方法將具體算術轉換為帶有抽象佔位符的表示式,例如將“20 + 35 = 55”重寫為“[20 + 35 = y1]”,其中“y1”是抽象變數。 這種設計允許模型在呼叫外部 API(例如計算器)之前形成完整的抽象推理鏈。
2.長鏈推理的優勢
COA方法在處理需要長鏈推理的問題時顯示出顯著的優勢。 研究發現,當問題需要更多的推理步驟時,COA方法可以生成比傳統鏈式推理(COT)方法更能匹配推理鏈長度的推理鏈。 這反映在下面的熱圖統計中,其中COA方法生成的推理鏈的長度更接近對角線,即與推理鏈的長度更一致。 此外,當生成的答案中的推理步驟數與引數數一致時,該模型可實現更高的問答精度。 這些結果表明,COA方法訓練的模型在生成匹配推理鏈方面表現更好。
為了充分驗證COA方法是否改善了知識操作(例如,算術)和推理的準確性,研究人員進行了人工評估。 在這項評估中,研究人員隨機選擇了200個GSM8K測試問題,並要求人類工作人員確定模型的答案是否包含任何算術錯誤(例如,不正確的計算,無效的方程式)或與數學推導無關的推理錯誤(例如,對問題的誤解,解決問題的不適當策略)。
1.人工評估結果
在研究中,發現COA方法有效地將算術誤差降低到零,這要歸功於使用方程求解器進行精確計算。 更重要的是,COA方法比基線方法產生的推理錯誤更少,這驗證了COA方法通過抽象推理鏈的整體規劃引導模型學習出更準確的推理。 相比之下,與cot-FSP相比,普通的微調(即cot-ft)在推理方面的改進有限,並且也無法有效抑制算術錯誤。
2.推理效率
CoA 推理的效能優勢不會帶來更高的計算成本。 該研究證明了 COA 和基線方法(基於 LLAMA-2-CHAT-7B)回答問題所需的平均時間(秒)。 與 COT 基線方法相比,COA 比幾個示例基線 COT-FSP 花費的時間更少,後者依賴於其他示例來構建。 然而,與 COT-FT 相比,COA 的效率略低,這可能是由於解碼了額外的標記,例如“[”和“]”。 與 ToolFormer 相比,COA 具有更低且更平坦的推理時間曲線,表明隨著推理步驟數量的增加,它具有更好的可擴充套件性。 造成這種差異的原因是,COA將(抽象)推理鏈的生成與知識檢索(即工具使用)分離,允許在呼叫任何工具之前對推理鏈進行整體解碼。 這個過程通過兩種方式攤銷推理成本:首先,在解碼 COA 鏈後進行工具呼叫,允許對同一鏈進行並行工具呼叫(例如,使用一次方程求解器而不是多次呼叫計算器),並避免因等待外部 API 響應而導致的時間延遲。 其次,在多個示例中,模型在對上乙個示例進行工具呼叫的同時,可以生成下乙個示例的COA鏈,從而實現了COA解碼和工具呼叫的並行化。
COA(抽象鏈)方法的計算成本分析是大型語言模型(LLMS)執行多步推理時的乙個重要課題。 COA方法旨在通過引入抽象變數來提高推理的準確性,並通過外部工具實現具體知識的執行。 這種方法在多步推理領域(如數學推理和 Wiki Qa)中顯示出顯著的效能提公升。
1.推理鏈的生成與工具的呼叫是解耦的
COA 方法通過將推理鏈的生成與工具呼叫解耦來獲得更高的推理效率。 在傳統的 ToolFormer 模型中,推理期間的工具呼叫是順序的,這會導致推理在等待 API 響應時出現“等待時間”。 COA 方法允許模型在等待工具填充當前鏈的同時開始生成下乙個抽象推理鏈,從而加快整個推理過程。
2.推理效率的實證分析
在實證分析中,coa方法在數學和wiki QA任務的推理速度上分別比以前的增強方法快約1.47 次和 133次。 結果表明,COA方法不僅提高了推理的準確率,而且顯著提高了推理速度。
3.多步推理場景中的效率
在多步推理場景中,COA方法效率特別高,可以提高40%的大模型工具利用率。 由於 COA 方法在解碼抽象推理鏈後進行工具呼叫,因此允許對同一推理鏈進行並行工具呼叫,從而避免了等待外部 API 響應的時間延遲。 此外,coa方法在處理需要多個推理步驟的問題時,推理時間增長曲線較慢,表明當推理步驟增加時,它可以更好地保持效率。
COA方法將LLMS的一般推理能力與使用外部工具執行特定知識的方式解耦,不僅提高了推理的準確性,而且顯著提高了多步推理的速度。 該方法的簡單有效實現顯示了其在數學推理和開放領域問答等各種任務中的潛力,並提供了適應未來新推理場景的可能性。
1.COA方法的潛力
COA方法在提高LLMS多步推理的準確性和效率方面顯示出巨大的潛力。 通過對抽象推理鏈的規劃,COA方法能夠更好地適應分布外知識的變化,在不同的推理場景中表現出良好的效能。
2.未來方向
未來的研究可以探索COA方法在更廣泛的應用場景中的潛力,如法律、金融或其他需要複雜推理的領域。 此外,研究人員可以進一步優化COA方法的推理效率,減少對外部工具呼叫的依賴,從而實現更快的推理過程。
3.對未來法學碩士的影響
COA方法為未來LLMS的發展提供了新的視角,即通過抽象推理鏈的規劃和外部工具的有效利用,可以提高模型的推理效能。 這為設計更智慧型、更高效的LLMS提供了重要指導,有望推動人工智慧在多步推理任務中的應用和發展。
宣告:本期**口譯為非人類撰寫,全文由賽博馬利安AI**口譯專家代理獨立完成,經人工審核和插圖後發布。