當 GPT 4V 充當機械人大腦時，您可能沒有 AI 來計畫

機器之心柱。

《機器之心》編輯部

清華大學交叉資訊研究院的研究人員提出了VILA（Robotic Vision-Language Planning）演算法，該演算法可以在非常複雜的環境中控制機械人，並為機械人提供任務規劃。

GPT-4V已經能夠幫助我們設計出最先進的控制瀏覽器，而這些應用都集中在虛擬的數字世界中。如果我們將 GPT-4V 帶入現實世界並將其用作控制機械人的大腦，會有什麼有趣的結果？

最近，從清華大學交叉資訊研究院的研究人員提出了VILA演算法，它允許GPT-4V進入物理世界，為機械人操作日常生活物品提供任務規劃。

VILA 代表機械人視覺語言規劃，它利用 GPT-4V 在視覺和語言模式下進行聯合推理的能力，將抽象的語言指令分解為一系列可執行步驟。 Vila最令人驚訝的是，它展示了對物理世界常識的理解，這是許多以前基於大型語言模型（LLM）的機械人任務規劃演算法所缺乏的。

例如，在下面**中，研究人員要求機械人取出架子上的漫威模型（鋼鐵俠）。薇拉明白這個場景中物體的複雜空間位置，即紙杯和可樂罐擋住了鋼鐵俠，為了乾掉鋼鐵俠，必須把紙杯和可樂罐拿走。

在下面的例子中，研究人員要求機械人為藝術課上的孩子們組織乙個桌面區域。根據這個場景中的剪紙，薇拉能夠推斷出上課所需的工具是剪刀，而其他危險物品如螺絲刀和水果刀則放在儲物箱中。

可以看出，VILA具有與人類相同的常識，可以在非常複雜的環境中控制機械人，為機械人提供任務規劃。

*位址：*首頁：

接下來，該研究詳細介紹了VILA的研究結果。

方法論

VILA使用視覺語言大型模型（VLM）來規劃機械人的任務。今天的VLM在影象和語言方面都表現出前所未有的理解和推理能力。將VLM應用於機械人任務，它可以根據對當前環境的視覺觀察和自己對世界的豐富知識進行推理。作者團隊提出了VILA演算法，該演算法主張直接使用視覺語言大模型（如GPT-4V）將高階抽象指令分解為一系列低階可執行技能。

給定語言指令和當前的視覺觀察影象，VILA 利用 GPT-4V 通過鏈式思維推理來理解環境，然後生成多步驟計畫。然後，該計畫的第一步由基本策略執行。最後，將已執行的步驟新增到已完成的計畫中，從而在動態環境中實現閉環規劃方法。

GPT-4V由於在大規模網際網絡資料上的訓練，表現出了優異的多樣性和較強的泛化能力。這些特性使它特別擅長處理 ** 中提出的開放世界場景。此外，作者團隊發現，GPT-4V驅動的VILA能夠解決各種具有挑戰性的規劃問題，即使在零樣本習模式下也是如此。這大大減少了以前方法中所需的快速工程量。

實驗

Vila 已經展示了在真實世界和模擬環境中解決各種日常操作任務的能力，有效地處理各種開放式指令和物件物件。筆者團隊通過大量實驗證明了 vila 的優勢：1Vila對視覺世界的常識有著深刻的理解，2VILA支援靈活的多模式目標指定方法，3VILA自然支援視覺反饋和閉環控制。

a.Vila對視覺世界的常識有著深刻的理解

語言和影象是不同型別的訊號，具有自己獨特的屬性：語言是人類生成的、語義的，但在表達全部資訊方面受到限制;相比之下，影象是包含詳細、低階特徵的自然訊號，單個影象捕獲有關場景的所有資訊。這種差異在難以用語言概括的複雜場景中尤為明顯。通過將視覺直接納入推理過程，Vila了解視覺世界的常識，並擅長需要全面了解空間布局或物體屬性的複雜任務。

空間布局

用簡單的語言描述複雜的空間布局是非常困難的，尤其是物體定位、位置關係和環境約束。通過將視覺直接納入推理過程，VILA可以精確識別場景中物體的位置，以及它們之間的關係。

在“拿走可樂罐”任務中，薇拉注意到可樂罐不見了，於是她巧妙地開啟冰箱找到了它。另一方面，基線方法在罐子看不見時發出錯誤的命令“撿起可樂罐”。

在“空盤子”的工作中，維拉得知她需要先從藍色盤子中取出蘋果和香蕉，然後才能撿起它。而基線法則忽略了盤子上的物體，直接給出了錯誤的指令“撿起藍盤子”。

物件屬性

物件的定義涵蓋多個屬性，包括形狀、顏色、材料、功能等。然而，自然語言的表達能力有限，因此在全面傳達這些屬性方面很笨拙。此外，物件的屬性與特定任務密切相關。這些原因使得過去的演算法難以處理需要深入了解複雜物件屬性的場景。然而，由於對視覺和語言的聯合推理，Vila對特定場景中物體的屬性有著深刻的理解。

在“準備美術課”任務中，維拉認為螺絲刀和水果刀是危險物品，並將它們移除考慮到桌子上的剪紙，維拉決定剪刀是美術課的必備物品，並將其拋在腦後。另一方面，基線方法忽略了桌子上的剪紙和美術課的具體場景，並選擇將剪刀作為危險物品移除。

在“採摘新鮮水果”任務中，Vila可以精確地採摘新鮮和完整的水果。基線方法認為半剝的橙子和腐爛的香蕉是完整的新鮮水果。

作者團隊對8個相關任務進行了充分的定量實驗。如表 1 所示，VILA 在理解空間布局和物件屬性任務方面明顯優於基線方法。

b.多模式目標指定

VILA支援靈活的多模式目標指定方法。 Vila不僅能夠針對語言指令，還能夠針對多種形式的影象，甚至可以將語言和影象混合在一起來定義目標。

* 中的四項任務表示：

Vila可以追求真實性。

Vila 可以針對抽象（例如兒童繪畫、草稿等）。

Vila 可以針對語言和影象的混合。

Vila 可以發現中指指向的位置，並將其用作實際任務中的目標位置。

作者的團隊對這四項任務進行了定量實驗。如表2所示，VILA在所有任務中都表現出強大的識別多模態目標的能力。

c.視覺反饋

VILA以直觀和自然的方式有效利用視覺反饋，在動態環境中實現穩健的閉環規劃。

在“堆疊積木”任務中，維拉檢測到基本技能執行失敗，並重新執行基本技能。

在“薯片”任務中，維拉意識到執行過程中的人為干擾。

在“尋找貓糧”任務中，薇拉可以不斷開啟抽屜和櫃子尋找貓糧，直到找到它。

此外，Vila 可以執行需要人工互動的任務，等待乙個人握住罐子，然後再鬆開夾具。

作者的團隊對這四項任務進行了定量實驗。如表3所示，通過自然結合視覺反饋，採用閉環控制的VILA的效能明顯強於開環控制。

d.模擬環境實驗

在模擬環境中，Vila 可以按照高階語言指令的指示將桌子上的物件重新排列成特定的排列方式。

如表4所示，VILA在模擬環境中的表現也明顯優於基線方法。

更多資訊請參考原文**。

當 GPT 4V 充當機械人大腦時，您可能沒有 AI 來計畫

相關問題答案

GPT 4V在保險行業的應用

GPT 4V在機械人領域的應用

當 GPT 4 學會懶惰和釣魚時，是技術的倒退嗎？還是人性的墮落？

OpenAI 回答了 GPT 4 變得“懶惰”的原因。

GPT 4 學會了偷懶，Open AI 正式承認了！網友承諾打賞試試！