LLM 代理如何使 GPT 4V ision 成為通用 Web 代理

Mondo 科技 更新 2024-02-01

**開發seeact:一種通用 Web 代理,利用 GPT-4V 等大型多模態模型 (LMM) 的功能來整合 Web 視覺理解和操作。LMM 已被證明在通用 Web 代理方面具有巨大潛力,給定定位方法,在真實網站上的成功率為 50%。 GPT-4V 還展示了令人印象深刻的功能,例如糾錯和長期規劃。 然而,細粒度的視覺定位仍然是乙個重大挑戰。 **與 Oracle 接地相比,探索的最有效的定位策略仍有 20-25% 的效能差距。 未來的工作應該更好地利用網頁的獨特屬性,例如HTML和視覺元素之間的已知對應關係,以改善定位並減少LMM的錯覺。

此外,還發現評估與離線評估之間存在顯著差異,這強調了評估對於準確評估模型能力的重要性。 這種差異很大程度上是由於完成相同任務的基礎計畫存在很大變化的可能性,這表明網頁互動具有動態性質。

圖1SeeAct 利用 GPT-4V 等大型語言模型來直觀感知**並以文字形式生成計畫。 然後,這些文字計畫將對映到 HTML 元素和操作,以對 **.

大規模多模態模型 (LMMS),尤其是最近的 GPT-4V (iION) 和 Gemini,在標準視覺語言理解和推理基準上表現出驚人的能力。 雖然 Web 內容一直是訓練資料的主要來源,但網頁本身在很大程度上被忽視了——每個網頁都是一種視覺表示,旨在讓人類使用者輕鬆使用。 這給LMM帶來了新的挑戰和機遇。 一方面,渲染網頁的螢幕截圖可以包含數千個具有豐富關係的元素,在大多數現有基準測試中,這些元素比物件或場景中心影象更複雜。 另一方面,如果LMM能夠準確地理解網頁,它將為網頁上的無數應用開啟大門。

*該研究的目的是研究 LMM 作為通用 Web 代理的潛力。 正如 mind2web 中所定義的那樣,通用 Web 代理應該遵循自然語言指令來完成任何給定實際網頁上的任務(例如,圖 1)。 這些任務可能非常多樣化和複雜,單個任務可能需要跨多個動態呈現的網頁執行 10+ 項操作。 現有的工作集中在對原始 HTML 輸入使用 GPT-4 等大型語言模型 (LLM)。 但是,HTML 比呈現的視覺效果更嘈雜,資訊密度更低。 例如,圖 1 中的螢幕截圖包含 423 個 HTML 元素,這需要使用 GPT-2 分詞器的 186,490 個文字標記和使用 GPT-4V 分詞器的 1,445 個視覺標記。 此外,HTML 本身提供的資訊不完整,缺少嵌入影象等關鍵語義。

為此,提出了一種使用LMM整合視覺理解和Web操作能力的通用Web代理SEEACT。 Seeact:基於 GPT-4V 的通用 Web 代理。 具體來說,給定乙個基於 Web 的任務(例如,在汽車租賃**上“至少租一輛卡車**”),檢查 GPT-4V 作為通用 Web 代理的兩個關鍵功能:

i) 動作生成在每個步驟中生成乙個動作描述(例如,“將游標移到'查詢您的卡車'按鈕上並單擊”)以完成任務,ii) 元素定位標識當前網頁步驟中的 HTML 元素(例如,“[按鈕] 找到您的卡車”)。

圖2乙個過程示例,其中單個操作步驟的元素對應於給定任務,使用三種不同的方法。 在此操作步驟中,需要通過單擊“查詢您的卡車”按鈕來搜尋模型。 對於文字選擇對映,給出了一些由 HTML 文字表示的候選元素,模型需要生成目標元素的選擇索引。 對於影象注釋,邊界框和索引標籤將新增到影象中。 模型需要在目標元素的左下角生成乙個標籤。 對於元素屬性的對映,模型需要目標元素的文字和型別。

*重點將放在目前公開可用的最先進的 LMM GPT-4V 上,並與 BLIP-2 等較小的 LMM 進行比較。 *GPT-4V 被發現具有強大的視覺理解所呈現的網頁的能力,並在廣泛的**和任務中以文字形式生成正確的計畫。 然而,接地,即將文字計畫轉換為**的精確操作,仍然是乙個重大挑戰。 它涉及選擇要與之互動的正確 HTML 元素和正確的操作(例如單擊、鍵入或選擇)。 * 提出了多種定位方法,包括在影象上疊加邊界框和索引標籤,類似於設定標記提示,這些方法已被證明對物件或場景中心的影象有效。 然而,GPT-4V 被發現在具有豐富語義和空間關係的複雜影象(如網頁截圖)上觀察到嚴重的幻覺。 最有效的定位策略有機地利用了 HTML 元素與其視覺呈現之間的已知對應關係,這是自然影象獨有的屬性。

*SeeAct 在 Mind2Web 資料集上進行了評估,並與 GPT-4 等純文字大型語言模型 (LLM) 以及專門針對 Web 代理進行微調的小型模型(FLAN-T5 和 BLIP-2)進行了比較。 除了快取上的標準離線評估設定外,還通過開發允許 Web 代理實時執行的新工具進一步建立了評估設定。 **勘探的主要發現總結如下:

在提供預言機定位的情況下,基於 GPT-4V 的 SeeAct 是乙個強大的通用 Web 代理。 在**評估中,它可以在不同的**上成功完成50%的任務,明顯優於現有的方法,如GPT-4(20%)或FLAN-T5(18%)。 這有力地證明了 GPT-4V 等 LMM 在 Web 代理方面的潛力。

然而,定位仍然是乙個重大挑戰。 最佳定位策略和預測定位之間仍有20-25%的差距。 在各種定位策略中,最佳策略有機地利用了HTML文字和視覺資訊,比影象標註策略高出30%[46]。

使用大型模型(LMM 和 LLM)的情境學習在看不見的東西上表現出更好的泛化,而監督微調在訓練中看到的東西上仍然具有優勢。

*評估和離線評估之間存在不可忽視的差異,因為完成同一任務通常有多個可行的計畫。 **評估更能反映模型的實際效能。

表1資料集統計資訊。 視覺令牌的平均數量是使用 OpenAI 視覺令牌計算器計算的。

表2不同型號的效能。 除了 Seeact 使用屬性對映到預言機之外,所有其他方法都使用 Mindact 框架中的排名器來生成候選者。 對於 SEEACT,"attributes"、"choices"、"annotation"跟"oracle"通過元素屬性、文字選擇、影象標註、手動標註實現元素對應,如圖 2 所示第3小節.

表3offline0 和 offline1 下的總體任務成功率 (%) 和 ** 評估 (%) 分別指任何步驟不允許的錯誤和某一步允許的錯誤。

圖3跨任務難度級別的總體任務成功率。 任務根據完成任務所需的操作數量進行分類,即簡單:2-4 個,中等:5-7 個,困難:8-12 個,每組分別有 26、15 和 9 個任務。

*標題:GPT-4V(ISION) 是乙個通才網路代理,如果接地的話

*鏈結:

相關問題答案

    OpenAI 回答了 GPT 4 變得“懶惰”的原因。

    OpenAI 承認收到了一些使用者對 GPT 的投訴。使用者聲稱,最近在使用 GPT 或 ChatGPT API 時,高峰時段響應非常緩慢且敷衍了事。在某些情況下,GPT 拒絕回答。在其他情況下,如果提出一系列問題,對話就會被打斷。據 獨立報 報道,如果使用者要求 GPT 中的段落,通常會出現此問題...

    GPT 4 學會了偷懶,Open AI 正式承認了!網友承諾打賞試試!

    ChatGPT越來越像乙個工人了?最近幾周,越來越多的ChatGPT使用者發現了乙個奇怪的現象,ChatGPT 需要更多的提示詞來完全執行使用者指令。其背後的原因是,gpt 大型模型它越來越懶惰。近日,OpenAI正式當面承認了這一點,但表示該模型自月日以來一直沒有更新,這當然不是故意的。眾所周知,...

    OpenAI 回答了 GPT 4 變得“沒有動力”的原因。

    根據使用者投訴,他們聲稱在高峰時段使用 GPT 或 ChatGPT 時收到了非常緩慢和敷衍的響應。有時甚至會出現對話中斷。有使用者指出,當他們要求一段 GPT 輸入時,系統通常只提供一些資訊,然後要求使用者自行完成其餘部分。有時,GPT 甚至會簡單地回答 你可以自己做 這種現象在高峰時段更為明顯,可...

    GPT 4 在《自然》雜誌上刊登!諾貝爾獎獲得者的複雜反應可以輕鬆完成

    近日,基於GPT 等大型語言模型的大型語言模型AI系統Coscientist成功登上 自然 雜誌。它可以快速準確地自主完成化學實驗的所有步驟,從檢索資訊到設計解決方案,再到控制裝置和分析資料,展示了AI大模型在化學領域的應用前景。據了解,CoScientist由卡內基梅隆大學研究團隊開發,由五個模組...

    在 GPT4 之前,谷歌推出了 Gemini,稱其為“最大、最有能力的 AI 模型”。

    昨天,谷歌的人工智慧研究實驗室 Google Deepmind 推出了備受期待的模型 Gemini,據報道,該模型在主要基準測試中的表現優於 OpenAI 的 GPT 。自從 OpenAI 一年前推出 ChatGPT 以來,領先的科技公司就陷入了 AI 進步的競賽中。到目前為止,Microsoft作...