是時候為大模型打造乙個身體了。
近日,歐比中光的研發團隊將機械臂與大模型相結合,利用語音、語言、視覺語言大模型,輔以Orbbec Gemini 2系列深度相機的資料輸入,打造出能夠理解和執行語音任務的機械臂。
該專案以史丹福大學李飛飛教授團隊打造的機械人智慧型體為基礎,通過解決泛化、觀測、控制等一系列工程難題,將基於多模態大模型的機械臂從一流的環境落到現實世界,拓展智慧型機械臂的應用潛力。
整合多個大型模型功能
讓機械臂理解並執行語音命令
去年以來,各種大模型的出現,引發了機械人行業新一輪的發展浪潮。 雖然“大模型+機械人”仍處於技術探索的早期階段,但隨著兩者的深入融合,機械人有望擁有更智慧型的“大腦”,擁有更強大的“眼睛”和“身體”,實現向具身智慧型的進化。
歐比中光新建的大型機械臂可以利用語音提示作為輸入,利用多種大型模型的理解和視覺感知能力,生成空間語義資訊,使機械臂能夠理解並執行動作。
首先,機械臂可以借助語音模型識別任務發出者的語音命令同時,使用兩台Orbbec Gemini 2雙目結構光相機,獲得高質量的環境RGB和深度資料SAM 和 CLIP 等視覺語言模型用於理解場景資訊,執行實時碰撞檢測,並最終執行任務。
基於這個原理,歐比中光可以讓機械臂完成一系列指令,例如:
請記住當前狀態。
將紅色方塊放在黃色框中。
將綠色方塊放在白色框中。
將藍色方塊逆時針旋轉 30°
將藍色方塊沿綠色方塊方向移動 10 厘公尺
將藍色方塊放在綠色方塊的頂部。
請恢復到原始狀態。
請將所有積木放入黃色框中。
目前,該專案在 1階段 0 開放了機械臂上多模態大型模型的應用部署基線。 歐比中光正在進一步優化多模態指令理解、多感測器融合感知、機械臂軌跡規劃控制、末端抓取控制等,未來將推出大型機械人控制系統,使機械人更加智慧型、靈活,適應更複雜的操作場景。
克服泛化、觀察和控制的問題
從**到現實
目前,國內外許多關於機械人代理的研究大多是在最佳環境中完成的。 從虛擬世界到現實世界,需要攻克一系列工程落地問題。 例如,在第一種環境中,相機基於理想的成像模型,不能受到成像畸變、環境照明等的影響,這對智慧型體在真實場景中的泛化能力提出了挑戰。
基於預訓練的多模態機械臂模型,歐比中光研發團隊攻克了泛化、觀測、控制等一系列落地難題
1、為了實現快速準確的語音輸入和理解,引入了大型語音預訓練模型,使機械臂靈敏地響應語音指令。
2、為保證機械臂在現實世界中具有足夠的泛化能力,採用視覺語言大模型,使機械臂理解和適應複雜場景,在多樣化的環境中執行任務。
3、為應對預訓練模型的理想相機成像問題,設計了新的標定方案,優化相機自動(AE)策略,解決環境光、成像畸變、透視變形等因素帶來的挑戰,使機械臂具有更強的魯棒性。
4、為提高機械臂在複雜環境下的安全性,引入深度攝像頭碰撞檢測和抓取校正,優化機械臂的控制,提高機械臂抓取場景的效能、精度和適應性。
歐比中光基於關鍵技術的引進和創新,成功攻克了多模態機械臂在多個交叉領域的難題,打通了工程應用的“最後一公里”。
在機械人視覺領域,歐比中光擁有超過8年的行業落地經驗,已服務超過100家機械人行業企業。 通過多年的合作,歐比中光在機械人3D感測器、雷射雷達、模型演算法等方面積累了豐富的經驗,幫助機械人客戶快速實現創新應用開發和量產。
布局多模態視覺大模型
上公升機械人應用潛力
集多個大模型能力於一體的機械臂可以應用於哪些場景?
隨著機械人“眼睛”(視覺感測器)、“大腦”(大模型)、“身體”(本體)的不斷發展演進,智慧型機械人和機械臂有望在工業製造、柔性物流、商業服務等場景中佔據主導地位。
例如,在自動化工廠場景中,基於多模態大模型的機械臂可以與無人車相結合,進行智慧型分揀搬運在上門服務機械人場景中,人們可以通過簡單的自然語言命令,讓機械人幫忙倒水、取快遞。
目前,針對機械人行業,歐比中光可提供單目結構光、雙目結構光、ITOF、雷射雷達、DTOF等全技術路線的3D視覺感測器,並提供多感測器融合支援。 同時,針對AI大模型、具身智慧型機械人等科技發展趨勢,歐比中光致力於打造機械人和AI視覺中臺,通過多模態視覺模型和智慧型演算法的研發,結合機械人視覺感測器,形成自主移動定位的完整產品解決方案, 導航避障,為全行業下游客戶提供全面的能力平台和系列化的產品解決方案,滿足智慧型機械人時代。