揭開人形機械人模型的面紗：多功能性和商業化問題的終結者

作為一條大賽道，人形機械人還撰寫了40多篇關於各模組的分析對比文章，並代表了公司。今天就和大家分享一下人形機械人的大模型，如果你對人形機械人相關產業鏈上的公司感興趣，可以檢視我主營業務下欄的文章列表，或者直接點選最近文章的鏈結如下：

第25章：人形機械人離商業化還有多久？從企業機器替代的投資回收週期中扣除。

第45章揭秘：人形機械人的核心部件在國內外頭無芯電機引數上展開競爭。

介紹：在人工智慧的浪潮下，人形機械人以其獨特的魅力和廣闊的應用前景成為科技領域的熱點。然而，儘管市場需求巨大，但人形機械人的商業化之路卻步履蹣跚。在本文中，我們將研究人形機械人在商業化過程中面臨的共同挑戰，並分析大型模型如何成為解決該問題的關鍵。

1、人形機械人商業化的痛點：通用性有限

1. 多功能性有限的挑戰：

多功能性是人形機械人商業化的關鍵。然而，如今的人形機械人往往需要高度專業化的使用者操作，並且只能在特定場景中工作。這種限制使人形機械人難以適應不斷變化的現實世界，限制了其商業化的可能性。

*：on the opportunities and risks of foundation models

二、機械人模型在拓寬通用性中的作用

1、軟硬體非同步問題

在人形機械人的發展中，硬體的進步為人形機械人提供了堅實的物理基礎。然而，軟體公升級是商業化的關鍵。軟體的智慧型化，特別是大模型的應用，可以使機械人更好地理解和適應環境，從而實現更廣泛的應用。

例如，波士頓動力公司的Atlas採用電液混合驅動結合IMU、編碼器、攝像頭、雷射雷達和力感測器，實現跳躍、後空翻等高難度動作，在運動能力方面絕對是行業標桿，但這些動作都是從預先建立的行為庫中衍生出來的，並沒有真正適配的軟體模型來做智慧型泛化適配。

2.機械人的大腦和小腦：

在機械人的控制系統中，大模型扮演著“大腦”的角色，負責高層任務規劃和決策。另一方面，“小腦”負責低階運動控制。這種分層控制策略使人形機械人能夠在複雜環境中靈活地執行任務。

*：ROKASHI機械人韓鳳濤。

3.人形機械人大型模型的理想大腦：

通過深度學習和強化學習，大型模型能夠理解和執行複雜的任務。他們不僅能夠處理視覺和語言資訊，而且還能夠理解物理世界的基本規律。這種強大的泛化能力使人形機械人能夠在各種場景中執行任務，這大大提高了它們的通用性。

*：on the opportunities and risks of foundation models

3. 人形機械人模型需要具備的關鍵能力

機械人模型的最終目標是提高人形機械人在不同場景和任務下的成功率。對於有限的應用場景和任務，大型模型需要具備自主可靠的決策能力、多模態感知能力、實時精準的運控能力。為了擴充套件到各種複雜的應用場景和任務，大型模型還需要具備泛化能力和湧現能力。

1、多模態感知能力：

為了在複雜的環境中做出正確的決策，人形機械人需要能夠通過視覺、聽覺和觸覺等多種感官獲取資訊。大型模型需要整合這些多模態感知資料，以實現對環境的全面理解。

2. 能夠做出獨立可靠的決策

在執行任務時，人形機械人需要能夠理解任務的複雜性，並將其分解為一系列可執行的子任務。這就要求大型模型具有較強的語言理解能力和對物理世界的深刻理解。例如，機械人可能需要了解“清潔房間”的任務，包括識別哪些物品需要移動，哪些物品需要丟棄。

3、實時精準操作控制能力：

在執行任務時，人形機械人需要實時調整自己的動作，以適應環境的變化。這需要乙個大型模型，可以快速處理感知資訊並精確控制機械人的運動。例如，機械人需要實時調整其步伐，以避開行走時的障礙物。

4、泛化能力：

大型模型需要能夠在以前從未見過的新環境中執行任務。這意味著模型不僅必須在訓練資料上表現良好，而且還必須能夠適應新的未知情況。

5.緊急能力：

除了在訓練資料上的表現外，大型模型還應該展示超出訓練範圍的執行能力。這種能力使機械人能夠展示應對新挑戰的創新解決方案。

四、大型模型相關人形機械人的介紹

人形機械人大模型主要基於谷歌Deepmind的RT相關模型，以及特斯拉、英偉達和Voxposer在機械人方面的布局，國內廠商主要是華為、中科院和科大訊飛等具有大模型和硬體布局能力的國產廠商。

1、autort：

Google Deepmind 提出的 AutoRT 系統結合了大型基礎模型（如大型語言模型 LLM 或視覺化語言模型 VLM）和機械人控制模型（如 RT-1 或 RT-2），用於在新環境中部署機械人並收集訓練資料。

2、palm-e：

PALM-E 是 Google Deepmind 開發的大型多模態模型，它結合了強大的語言模型 PALM 和視覺模型 VIT。 PALM-E 擁有 5620 億個引數，在處理語言、視覺和視覺語言任務方面表現出色，並在 OK-VQA（開放域視覺問答）任務上實現了最先進的效能。其主要特點包括：1）自主決策：PALM-E能夠理解複雜的自然語言指令，並將其轉化為具體的行動計畫。2）多模態感知：模型能夠對影象和文字資訊進行處理和理解，實現跨模態的理解和推理。

*：palm-e: an embodied multimodal language model

3、rt-2：

RT-2 是 Deepmind 開發的端到端機械人具身大模型，基於 Transformer 架構，模型為 VLA（Vision-Language-Action）模型，有機地結合了自主決策、多模態感知、實時精準操作和控制等多種能力，提公升了機械人的整體效能。其主要功能：1）VLA（Vision-Language-Action）：RT-2能夠理解視覺資訊，處理自然語言指令，並執行相應的動作。2）多能力組合：RT-2有機結合視覺理解、語言處理、動作執行等多種能力，提公升機械人的智慧型水平。

*：rt-2: vision-language-action models transfer web knowledge to robotic control

4、rt-x：

RT-X 是由 DeepMind 開發的機械人模型，該模型已在多個資料集上進行了訓練，以全面提高其能力。 RT-X 在視覺理解、語言處理、動作執行等方面得到了增強。該模型在多個資料集上進行訓練，全面提公升了多模態感知、自主可靠決策、實時精準雲控、泛化湧現等能力。它代表了當前人形機械人模型的最高水平，預示著未來機械人的發展方向。其主要特點包括：1）RT-X在多個任務上表現出更高的效能，包括視覺識別、語言理解、行動計畫等。2）泛化能力：在多資料集上訓練後，RT-X對新任務和新環境的適應性得到增強。

*：open x-embodiment: robotic learning datasets and rt-x models

5.特斯拉的人形機械人模型：

特斯拉在大模型領域的布局主要體現在其名為Optimus的人形機械人專案上。 Optimus使用與特斯拉汽車相同的計算機視覺，乙個處理視覺資料、做出行動決策並支援通訊的“大腦”，以及與特斯拉汽車相同的晶元。特斯拉正在利用其積累的自動駕駛技術將其應用於人形機械人的開發。

在大型車型的具體應用方面：特斯拉將把FSD系統中使用的大型車型的核心技術能力應用到Optimus上，使其具備先進的感知、決策和執行能力。這包括使用類似 Dojo 的計算資源來訓練和優化 Optimus 的 AI 模型。

6. Voxposer大模型：

谷歌部門的幾個大型機械人模型的總體思路是專注於任務理解、拆分和邏輯推理，很少涉及機械人運動控制本身的規劃，尤其是規劃問題，而是在端到端的訓練方法中生成了簡單離散的機械臂末端位置和底盤運動指令，不考慮更機械人領域的內容，如連續路徑和軌跡規劃。

Voxposer利用VLM和VLM的能力，將機械人的觀察空間（一般是三維空間和待操縱的物體）轉換為3D值圖，然後利用成熟的路徑搜尋演算法（Voxposer使用概率路線圖）在3D值圖上搜尋並生成可用的機械人運動路徑。有了可用的路徑，機械人運動的下一步軌跡規劃和控制是當前機械人領域中乙個比較好的問題。

*：composable 3d value maps for robotic manipulation with language models

7.NVIDIA ISAC機械人平台（重要但不是大模型）。

準確地說，NVIDIA Isaac 是乙個開放的 AI 平台，而不是乙個專為機械人設計的大型模型，提供了大量的 GPU 加速演算法和深度神經網路（DNN）模型。 NVIDIA iSAAC 是乙個多技術平台，提供全面的解決方案，包括機械人作業系統（ROS）、人工智慧（AI）框架、模擬工具、預訓練模型和軟體工具，以支援機械人技術的開發和應用。 iSaac平台支援大型模型的訓練和應用。

其功能分類：

1） 3D 物體姿態估計：Isaac 平台提供精確的 DNN 模型，包括物體檢測、3D 姿態估計和使用深度感測器資料的姿態優化。這使機械人能夠在倉庫等環境中執行有效的物體識別和操作。

2）導航和規劃：ISAAC整合了幾項新的操作、導航、規劃和定位功能，使機械人能夠在複雜的環境中自主導航和執行任務。

3）實時**：Isaac Sim 提供了乙個強大的環境，允許開發人員在虛擬環境中測試和優化其機械人的行為，從而降低實際部署的風險和成本。

8.華為盤古大模型：

華為本身擁有業界領先的自動駕駛軟硬體一體化解決方案，華為推出了“盤古”車型，這是乙個面向行業的車型系列，涵蓋多個層次和多個應用領域。盤古模型的結構分為三層：L0層包括五個基本的大模型，即自然語言模型、視覺模型、多模態模型和科學計算模型; L1層是行業的大型模型，涵蓋政務、金融、製造、礦業、氣象等多個領域; L2層為細分場景提供了更多的模型，如政務**、網路助手、先導藥物篩選等，但其強大的算力和多模態資料處理能力也為大型機械人模型的開發提供了基礎。

此外，華為在23年發布了機械人雲平台，這是乙個集人工智慧、雲計算、機械人技術於一體的高度整合平台。該平台的主要特點包括雲原生機械人資料閉環系統、端雲協同智慧型流程機械人解決方案，以及針對不同應用場景的定製化解決方案，相信在機械人領域也會有很好的表現。

9.中科院紫東太初大模型：

中科院在機械人及機械人相關大模型領域表現不俗，尤其是其研發的“紫東太初”大模型，是中科院自動化研究所研發的千億引數三模態大模型，後來公升級為全模態大模型。該模型可以理解和處理語音、影象、文字等多種模態的資料，從而實現更接近人類智慧型的認知和決策能力。

紫東太初模型採用國產化基礎軟硬體平台Ascend AI，其演算法由中科院自動化研究所自主研發。該模型不僅可以處理傳統的影象和文字資料，還可以理解更複雜的資料型別，如**、訊號、3D點雲等。紫東太初模型在神經外科導航、短內容審查、法律諮詢、醫學多模態鑑別診斷、交通違章影象研究等多個領域顯示出廣泛的應用前景。例如，在醫療場景中，該模型可以與神經外科機械人微神經相結合，實現手術過程中視覺、觸覺等多模態資訊的實時融合，協助醫生進行手術。

10. 科大訊飛超級大腦：

科大訊飛本身在語音識別和自然語言處理領域擁有領先的技術，其大模型可用於機械人的語音互動和理解。在較強的自然語言處理（NLP）能力、多模態感知能力、深度學習與認知智慧型、具身智慧型、強化學習、系統整合等方面具有明顯優勢，為構建人形機械人模型提供了堅實的基礎。

科大訊飛《科大訊飛超級大腦2030計畫》提出了認知智慧型、具身智慧型和運動智慧型相結合的目標。這意味著科大訊飛的人形機械人模型將具備在物理世界中導航、操縱物體和執行複雜動作的能力。同時，科大訊飛與宇樹科技等合作夥伴在人形機械人研發過程中，推動“視覺-語言-行動”多模態具身智慧型大模型的開發。這有助於建立乙個支援人形機械人開發的生態系統，包括硬體供應商、軟體開發商和行業應用合作夥伴。

5 人形機械人模型的不足與未來展望

作為人工智慧的前沿領域，人形機械人正在以驚人的速度發展。然而，為了實現真正的智慧型化和自主性，現有的大型模型在許多方面仍需改進。

*：ROKASHI機械人韓鳳濤。

1. 感知模態的侷限性及多模態感知的發展趨勢

1）知覺模態的缺陷：

目前的人形機械人模型主要依靠視覺感知，這種單一的感知模式無法應對複雜的環境。例如，在嘈雜的環境中，機械人可能很難僅根據視覺資訊準確識別和響應。

2）多模態感知的未來：

為了克服這一侷限性，未來的大型模型需要整合多種感知模式，如視覺、聽覺和觸覺。多模態感知可以提供更豐富的環境資訊，使機械人能夠在複雜場景中做出更準確的決策。例如，通過結合聽覺和觸覺資訊，機械人可以更好地理解人類的指令和情緒狀態。

2. 指令生成的速度和複雜性問題

現有的大型模型生成指令的速度很慢，並且生成的結果往往過於簡單。這可能導致機械人在需要快速響應的場景中無法及時做出正確響應，例如緊急救援或複雜的操作任務。目前主流的機械人大模型偏向於任務理解和拆分，很少涉及機械人運動控制，而是利用端到端訓練生成簡單、離散分布的機械臂末端位置和底盤運動指令，不考慮連續路徑和軌跡規劃的內容，這在機械人領域比較多。

3. 泛化能力和模型架構的提公升

1）缺乏泛化能力：

泛化能力是大型模型在新環境、新任務下表現的關鍵。當前模型的泛化能力仍有待提高，尤其是在面對未知的環境和任務時，模型的效能往往不盡如人意。

2）模型架構和方法的創新

為了提高泛化能力，未來的大型模型需要在架構、訓練方法和資料集等方面進行創新。例如，通過引入元學習和遷移學習等技術，模型可以更好地適應新任務。同時，構建更多樣化的資料集也有助於模型學習更廣泛的知識。

結論：

人形機械人模型的開發正處於關鍵階段。但隨著技術的不斷進步，我們有理由相信，未來的大型模型將更加智慧型、高效和通用。這不僅將推動人形機械人在各個領域的應用，也為具象智慧型和人工智慧的發展開闢了新的道路。

人形機械人或具身智慧型仍處於產業發展階段從0-1，多還是要了解和分析公司在行業內的相關技術能力進行布局的安排，如果你願意溝通並看好這個行業，可以關注聯絡，謝謝。

機械人人工智慧有點枯燥的東西

揭開人形機械人模型的面紗：多功能性和商業化問題的終結者

相關問題答案

人形機械人當大型模型落地時，它從機械人拿起一杯咖啡開始

人形機械人需要什麼樣的大模型？

大模型的“火”燒到了人形機械人身上

人形機械人專題人形機械人專題、軟體系統

機械人行業觀察：大模型視角下人形機械人的現在與未來

揭開人形機械人模型的面紗：多功能性和商業化問題的終結者

相關問題答案

人形機械人 當大型模型落地時，它從機械人拿起一杯咖啡開始

人形機械人需要什麼樣的大模型？

大模型的“火”燒到了人形機械人身上

人形機械人專題 人形機械人專題、軟體系統

機械人行業觀察：大模型視角下人形機械人的現在與未來

人形機械人當大型模型落地時，它從機械人拿起一杯咖啡開始

人形機械人專題人形機械人專題、軟體系統