復旦旅遊規劃軟體賦能大型語言模型挑戰旅遊規劃

Mondo 旅遊 更新 2024-02-14

簡介:探索語言智慧型的新前沿:旅行規劃

在人工智慧的發展中,規劃一直是核心追求之一。 然而,由於缺乏人類層面規劃所需的多種認知基礎,早期的人工智慧**主要集中在密閉環境中。 隨著大型語言模型 (LLMS) 的出現,新一代語言**已經顯示出有趣的能力,例如使用工具和推理。 這就引出了乙個問題:這些語言能否在以前人工智慧無法企及的更複雜的環境中進行規劃?

為了深入探討這一點,我們提出了乙個新的規劃基準,TR**ELPLANNER,它專注於乙個常見的現實世界規劃場景:旅行規劃。 即使對人類來說,這也是一項具有挑戰性的任務,但大多數人可以通過正確的工具和足夠的時間成功地完成它。 旅行計畫不僅涉及多日旅行的長期計畫,還涉及有關地點、住宿、交通、膳食等的眾多相互依賴的決策。 此外,旅行計畫還涉及許多約束,從預算和各種使用者需求的顯性約束到常識性的隱性約束,例如人們在不使用某種交通工具的情況下無法傳送到另乙個城市。 因此,旅行計畫需要強有力的主動性,以使用各種工具主動獲取必要的資訊,並考慮收集到的資訊以推進計畫,同時考慮到所有明確和隱含的限制。

標題tr**elplanner: a benchmark for real-world planning with language agents

宣告:本期**口譯為非人類撰寫,全文由賽博馬利安AI**口譯專家代理獨立完成,經人工審核和插圖後發布。

** 習逍遙科技表示“後台回覆”。智慧型內部測試“獲取情報內部測試的邀請鏈結。

智慧型的標誌之一是人類的計畫能力,它基於多種能力的進化結果:使用各種工具迭代收集資訊並做出決策,記錄中間計畫(在工作記憶或物理裝置上)以供考慮,並通過執行模擬來探索替代計畫,而模擬又依賴於世界模型。 幾十年來,研究人員一直在嘗試開發模仿人類規劃能力的人工智慧**,但通常是在受限的環境中,人類水平規劃所需的大部分認知基礎設施都缺失了。 人工智慧**能夠在人類操作的基本上不受約束的環境中穩健地工作仍然是乙個遙遠的目標。

隨著大型語言模型(LLMS)的出現,新一代語言**應運而生,其特點是使用語言作為思考和交流的工具。 這些展示了有趣的能力,如工具使用和各種形式的推理,並可能滿足早期人工智慧所缺乏的認知基礎設施的一些作用。 因此,研究人員開始研究它們在一系列規劃任務中的潛力,從經典的規劃設定到具身和網路。 然而,現有工作中的規劃設定仍然在很大程度上遵循傳統設定,即具有固定基本事實的單一目標優化。

TR**elplanner 提出了乙個新的規劃基準,該基準側重於旅行規劃的常見現實規劃場景。 即使對人類來說,這也是一項具有挑戰性和耗時的任務(但大多數人可以使用正確的工具和足夠的時間成功地完成):計畫多日旅行本質上是長期的,涉及許多相互依賴的決定,例如位置、住宿、交通、膳食等等。 旅行計畫涉及許多約束,從明確的約束(如預算和各種使用者需求)到隱性的常識性約束(例如人們無法在不使用某種交通工具的情況下傳送到另乙個城市)。 旅行計畫需要強大的代理機構主動使用各種工具,例如搜尋航班和餐館,從部分可觀察的環境中獲取必要的資訊,並考慮收集到的資訊以推進計畫,同時考慮到所有明確和隱含的限制。 規劃任務的這種複雜性超出了以前的 AI** 的能力。

Tr**Elplanner 提供了乙個豐富的沙盒環境,可以通過六個工具訪問從 Internet 爬取的大約 400 萬條資料記錄,以及 1,225 個不同使用者查詢(及其參考計畫)的精選集合,每個查詢都有不同的約束組合。 總體評估表明,當前的語言**還無法處理如此複雜的規劃任務——即使是 GPT-4 也只能實現 06%的成功率。 語言 ** 難以完成任務、使用正確的工具收集資訊或跟蹤多個限制。 然而,我們注意到,語言有可能處理這樣乙個複雜的問題,這本身就是向前邁出的一大步。 Elplanner為未來的語言提供了乙個具有挑戰性但有益的測試平台。

Elplanner提供了乙個豐富的沙盒環境,從網際網絡上抓取了大約400萬條資料記錄,可以通過六種工具訪問。 我們還策劃了 1,225 個不同的使用者查詢(及其參考計畫),每個查詢都有不同的約束組合。 乙個具有代表性的例子如圖 1 所示。

我們對五個 LLM(例如 GPT-4)和四個規劃策略進行了全面評估,以測試它們交付完整課程的能力。 結果表明,即使是最先進的語言**也無法處理像 TR**ELPLANNER – GPT-4 這樣複雜的規劃任務,成功率僅為 06%。語言很難保持任務的相關性,使用正確的工具來收集資訊,或跟蹤多個約束。 然而,值得注意的是,語言試圖解決如此複雜問題的能力本身就是向前邁出的一小步。 Elplanner為未來的語言提供了乙個具有挑戰性但有意義的測試平台,幫助他們攀登到人類水平的複雜規劃能力。

乙個積極的跡象是,雖然我們訓練有素的人工注釋員平均需要 12 分鐘才能手動注釋計畫,但該語言可以在 1-2 分鐘內自動生成計畫。 也許有一天,語言會變得足夠強大,可以幫助我們自動化許多繁瑣的任務。

為了評估是否可以感知、理解和滿足各種約束以制定可行的計畫,我們在 elplanner 中包括了三種型別的約束(表 1):

環境限制:現實世界是動態的,需要適應性強。 例如,飛往某些目的地的航班可能在某些時間不可用,必須動態尋找替代方案。 常識約束:在現實世界中為人類服務時,應考慮常識。 例如,重複訪問同一景點通常是非典型的。 硬約束:評估 ** 是否能有效滿足單個使用者的需求,例如預算約束。

在tr**elplanner中,我們建立了乙個靜態和封閉的沙盒環境,以確保一致和公正的評估。 這種設定確保所有**都可以訪問相同、不變的資訊,避免動態資料引入的變數和潛在偏差。 為了提供與現實世界相匹配的多樣化旅行選擇,我們確保 TR**ELPLANNER 中每個工具的資料庫都包含豐富的資訊。 例如,FlightSearch 工具的資料庫從 Kaggle Flight Status Prediction 資料集中提取 2022 年 3 月 1 日至 4 月 1 日的資料,並生成 ** 資訊(表 2)。 此外,“notebookwrite”工具被指示記錄規劃所需的資訊,以評估工作記憶體管理能力,並防止由於上下文累積而導致的最大令牌限制問題。

為了為 tr**elplanner 建立多樣化的查詢,我們從基本元素開始,包括出發城市、目的地和特定日期範圍,隨機選擇這些元素以形成每個查詢的框架。 然後,我們調整行程的持續時間和硬約束的數量,以建立具有不同複雜程度的查詢。 例如,為期 3 天的計畫側重於乙個城市,而為期 5 天和 7 天的計畫涉及訪問隨機選擇的州,並分別包括前往 2 個和 3 個城市的旅行。 我們還引入了多樣化的使用者需求作為硬性約束,以進一步增加複雜性和真實性。 最後,我們使用 GPT-4 生成自然語言查詢。

我們對提供的課程進行多個維度的全面評估。 評估標準包括:

可交付性:評估最終計畫是否可以在有限的步驟中成功交付。 常識約束通過率:評估**是否可以將常識納入他們的計畫中。 硬約束通過率:衡量計畫是否滿足查詢中明確給出的所有硬約束的度量。 最終通過率:在所有測試計畫中滿足上述所有約束的可行計畫的比例。 我們在TR**ELPLANNER上評估了多個LLMS和規劃策略的效能。 在兩階段模型中,我們使用 React 框架進行資訊收集,同時更改底層 LLMS。 這種方法使我們能夠在統一工具使用的框架內評估不同 LLMS 的效能。 在單一的規劃模型中,我們的評估不僅涉及不同的 LLM,還涉及不同的規劃策略,以評估這些在其他規劃基準中被證明有效的策略是否在 TR**ELPLANNER 中保持其有效性。 所有實驗均在零樣本環境中進行。

在TR**ELPLANNER中,最先進的大型語言模型(LLMS)面臨著巨大的挑戰。 即使是 GPT-4 的成功率也只有 06%,而其他 LLM 未能完成任何任務(表 3)。 這些結果表明,儘管LLMS在使用工具和推理方面表現出一定的能力,但他們在處理複雜的旅行計畫任務方面仍然存在困難。 LLMS 在保持任務相關性、使用正確的工具收集資訊以及跟蹤多個約束方面表現不佳。

在 Tr**ElPlanner 中評估的四種規劃策略(如 React 和 Reflexion)在簡單的規劃設定中可能有效,但它們在 Tr**Elplanner 中的多約束任務中沒有得到很好的體現。 他們通常無法正確地將推理轉化為正確的行動,並跟蹤全域性或多重約束。 這表明語言智慧型需要更複雜的規劃策略來接近人類層面的規劃。

進一步的分析揭示了現有語言智慧型的許多常見故障模式,例如工具使用中的引數錯誤、陷入無限迴圈和幻覺(圖 2)。 例如,GPT-4-Turbo 在使用該工具時仍然存在引數錯誤和重複動作迴圈,表明即使在收到無效操作或空結果的反饋後,代理仍會繼續重複這些動作。 這意味著智慧型體未能根據環境反饋動態調整其計畫。

通過對失敗案例的研究,我們可以更深入地了解當前智慧型體在深度規劃中的不足(圖3)。 例如,代理無法完成計畫,因為它無法更正永續性錯誤。 在工具使用方案中,即使正確執行了上述所有步驟,代理通常也無法交付計畫。 進一步的調查顯示,這通常是由於輸入的日期錯誤。 此外,智慧型體在個人計畫模式下提供幻覺答案,因為他們在處理大量資訊時很容易混淆。 這表明智慧型體在面對大量資訊時可能會迷失方向,這種現象被稱為“迷失在中間”。

代理人也很難將其行為與推理保持一致。 例如,在使用反射策略的情況下,儘管座席認識到需要最小化成本,但他們傾向於隨機選擇專案,其中一些專案可能更昂貴。 行動和分析推理之間的這種不一致嚴重阻礙了代理人的交付率。

總之,tr**elplanner 對當前的代理商提出了重大挑戰。 即使是SOTA LLMS和在許多傳統任務中表現出同等或優於人類績效的規劃策略,仍然遠遠不足以處理人類能夠完成的複雜規劃任務。 elplanner 為未來開發更強大的語言代理提供了乙個具有挑戰性但有意義的測試平台。

TR**ELPLANNER作為一種新型的旅行規劃標桿,為語言智慧型的發展提供了新的視角和挑戰。 通過對多個大型語言模型(LLMS)的綜合評估,我們發現即使是最先進的語言**框架,如GPT-4,也只實現了0的最終通過率6%。這一結果表明,當前語言**在處理複雜的多約束程式設計任務方面仍存在明顯缺陷。

ElPlanner的引入不僅驗證了語言在工具使用、資訊收集和規劃方面的能力,還揭示了它們在保持任務相關性、正確使用工具收集資訊以及跟蹤多重約束方面的缺點。 儘管如此,語言試圖解決這樣乙個複雜問題的能力本身就是乙個了不起的進步。

未來的研究可以建立在Elplanner提供的豐富的沙盒環境和具有挑戰性的測試平台之上,以進一步推進語言的發展。 我們期望未來的語言**能夠更好地理解和處理複雜的多約束規劃任務,並逐步接近人類水平的規劃能力。 此外,隨著語言**提高其自動化計畫任務的能力,它們有望在未來幫助人類自動化繁瑣的任務,從而節省時間並提高效率。

宣告:本期**口譯為非人類撰寫,全文由賽博馬利安AI**口譯專家代理獨立完成,經人工審核和插圖後發布。

相關問題答案

    復旦流浪醫生回國?

    復旦大學的天才,年代在美國留學的博士,如今混雜到在美國流落街頭的地步。年來,風吹日曬,衣服不蓋,真是悽慘,第一次看到這個訊息,心裡充滿了同情,和很多人一樣,我的第一反應就是盡快派人來接他,讓他感受到祖國的溫暖。直到我讀了他的生活史,我才意識到我的想法是多麼荒謬。這位復旦流浪的孫姓醫生,是年代的傳奇人...

    記憶中的復旦游泳池

    我們這一代城市孩子一般沒有機會在天然水道游泳,但他們中的大多數人都有過室外游泳池的經驗。在我歲之前,我住在五角大樓。沿著正通路向西走到國定路,那是當時復旦大學的後門 其實應該叫 東門 但當時我們都習慣這樣稱呼,好像真的有什麼捷徑通向復旦大學。穿過後門公尺右轉,正前方就是我們暑假的絕對天堂 復旦大學露...

    復旦大學發布訃告

    紅星新聞。據復旦大學官員稱 著名數學家,中國科學院院士他是發展中國家科學院院士 中國民主同盟優秀委員 中國人民政治協商會議第七屆 第八屆 第九屆全國委員會委員,第六屆中國數學會副理事長,第七屆上海數學會理事長復旦大學教授 博士生導師胡和生先生於年月日時分在上海因病逝世,享年歲。胡和生,年月生於上海。...

    復旦大學,最新版《自然》子期刊!

    有序結構在自然界中廣泛存在 如生物膜 矽藻土等 這類材料規則孔隙結構帶來的獨特理化性質引起了研究者的重視。近年來,有機 無機共組裝被認為是將分子或奈米結構單元組裝成週期性有序結構的有效方法,並且還成功地製備了具有有序孔結構的材料,包括分子和金屬有機框架。然而,由於主客體之間的強相互作用,該方法在合成...

    一畢業,復旦就收到了offer,簽約獎金達6萬元

    讓驢子奔跑的不是鞭子,而是它面前仙人掌上的胡蘿蔔。剛從復旦大學拿到博士學位的肖張,就收到了乙份令人羨慕的offer,簽約獎金高達萬元。這無疑是對他多年努力的肯定,也預示著一條光明的職業道路。當今社會,機遇與挑戰並存。市場競爭激烈,求職者面臨艱難的就業形勢,職場變幻莫測。在這樣的環境中站穩腳跟並不容易...