聰明的東西
編譯 |徐珊
編輯 |鵬雲
大模之戰席捲了整個2024年,緊接著,各大科技巨頭似乎都瞄準了AI可穿戴裝置,尤其是智慧型眼鏡!
智東12月18日報道稱,據悉,Meta、谷歌、Microsoft、OpenAI等科技巨頭正準備將AI大模型應用於智慧型眼鏡等配備攝像頭的可穿戴裝置。 他們認為,智慧型眼鏡等硬體將成為AI大模型的合適載體,因為多模態AI大模型可以處理聲音、**等多種型別的資訊。
最近,各大科技巨頭一直在嘗試將人工智慧功能整合到不同的移動裝置中。 據知情人士透露,OpenAI 最近將“GPT-4 with Vision”物體識別軟體嵌入到社交公司 Snap 的產品中。 這可能會為Snap的智慧型眼鏡Spectacles提供新功能。
Meta 上周二還展示了其自己的 AI 整合到 Ray-Ban 智慧型眼鏡中的有效性。 智慧型眼鏡可以通過AI語音助手描述使用者所看到的內容,同時能夠告訴使用者哪件襯衫適合哪條褲子,並具有一系列新功能,例如將西班牙語報紙翻譯成英語。
亞馬遜 Alexa AI 助手團隊中還有乙個團隊正在開發一種具有感官功能的新 AI 裝置。 此外,與大多數手機製造商一樣,谷歌已經開始嘗試在手機中使用AI功能。
今年 6 月,蘋果 Vision Pro 頭顯正式亮相,計畫明年發布**。 然而,根據The Information,該裝置最初可能不具備多模態AI功能。
當一場新的移動終端革命開始,蘋果、Microsoft、OpenAI、Meta等科技巨頭將如何布局新的戰場? 他們如何在主要硬體上突出自己的AI優勢? 哪些新的AI硬體可能成為AI大模型的最佳載體? 通過最新的爆料,我們可以看到,一場AI硬體創新大戰正在打響。
在《雙子座》中,上週剛剛發布的乙個大型人工智慧模型展示了人工智慧如何根據模仿者的動作猜測電影的名字。 它還顯示了詳細資訊,例如如何猜測地圖、如何處理手動問題等。
雖然內容可能會被編輯,但它也揭示了谷歌想要傳達的基本思想:建立乙個始終相同的人工智慧,並且可以通過人們正在觀看和收聽的內容為使用者提供直接反饋或幫助。 據一位直接了解谷歌消費者硬體戰略的人士稱,谷歌可能需要數年時間才能提供這種體驗,因為實施基於環境的計算將是耗電的。
谷歌眼鏡。 現在,谷歌正在重新設計其Pixel手機的作業系統,希望嵌入更小的Gemini型號,並公升級其移動AI助手Pixie的體驗,例如告訴使用者他們可以購買他們剛剛拍攝的產品。
基於谷歌在搜尋技術上的長期布局,The Information認為,基於周邊環境資訊,學習人們需要或想要的學習習和**AI裝置似乎很適合谷歌。 雖然谷歌眼鏡在十年前就失敗了,但谷歌也推動安卓手機廠商通過手機攝像頭掃瞄環境,將影象推送給谷歌,然後基於雲系統進行分析,從而形成了“谷歌鏡頭”影象搜尋應用。
熟悉該戰略的人士表示,該公司最近取消了眼鏡式裝置的開發,但仍在為此類裝置開發軟體。 知情人士稱,谷歌計畫將其影象搜尋軟體授權給硬體製造商,類似於它使用其人工智慧模型為三星等手機製造商開發Android移動作業系統的方式。
隨著多模態AI模型的蓬勃發展,Microsoft的研究人員和產品團隊也開始嘗試公升級他們的語音助手,並嘗試在一些小型裝置上執行AI功能。
根據專利申請和知情人士的說法,該型號可以支援一些價格實惠的智慧型眼鏡或其他硬體。 Microsoft 計畫在其 AR 頭顯 Hololens 上執行 AI 軟體。 使用者將頭戴式裝置前置攝像頭對準物體,拍下照片**並將其傳送給由 OpenAI 提供支援的聊天機械人,聊天機械人可以直接識別物體。 同時,使用者還可以通過對話從聊天機械人中獲取更多資訊。
hololens
蘋果的Vision Pro有很多新的多模態功能,但AI大模型的進展略顯落後於其他模型。 目前,沒有跡象表明Vision Pro在發布時將具有複雜的物體識別或其他多模態AI功能。
但蘋果花了數年時間完善Vision Pro的計算機視覺功能,以便該裝置能夠快速識別周圍環境。 這包括快速識別家具並了解佩戴者是坐在客廳、廚房還是臥室。 也許,蘋果正在開發一種可以識別影象和**的多模態大模型。
vision pro
但與其他公司正在開發的眼鏡相比,Vision Pro體積大、重量重,不適合在日常戶外場景中使用。
另一方面,據報道,蘋果今年早些時候暫停了自己的AR眼鏡的開發,專注於其頭顯的銷售。 目前尚不清楚AR眼鏡的開發何時會恢復。
Meta 首席技術官安德魯·博斯沃思 (Andrew Bosworth) 周二在 Instagram 帖子中表示,一些雷朋眼鏡使用者將能夠直接在智慧型眼鏡端訪問 AI 模型。
ray-ban
Meta 的一些領導者將 Ray-Ban 眼鏡視為 AR 眼鏡的“先驅”。 該裝置可以將數字影象與周圍的現實世界融合在一起。 按照原計畫,Meta計畫在未來幾年內推出AR眼鏡,但計畫遇到了一系列困難。 具體而言,有報道稱,智慧型眼鏡難以吸引使用者,下一代顯示器的發展遇到了困難。
但多模態人工智慧模型的到來似乎讓博斯沃思和他的團隊重新煥發了活力,他們明白,眼鏡可以在短期內為客戶帶來一系列新的人工智慧功能。
今年夏天,在亞馬遜一年兩次的產品規劃中,Alexa團隊的工程師提出了一種能夠執行多模態AI的新裝置。
據直接了解該項目的人士稱,該團隊特別專注於減少在裝置上處理人工智慧計算和記憶體(如影象、**和語音)的需求。 目前尚不清楚該專案是否獲得資金,也不清楚該裝置打算為客戶解決什麼問題,但它與該公司的Echo語音助手裝置系列是分開的。
此前,Alexa團隊還開發了一種名為Echo Frames的智慧型音訊眼鏡。 該裝置不支援螢幕顯示或攝像頭。 目前尚不清楚亞馬遜是否會開發具有視覺識別功能的智慧型眼鏡。
這不是矽谷巨頭第一次設計這種帶有攝像頭的可穿戴裝置。 谷歌、Microsoft和其他科技巨頭此前已經開發了AR頭顯。 他們希望能夠讓數字螢幕出現在頭戴式裝置的半透明螢幕上,提供分步指導來幫助使用者完成任務。 然而,由於光學設計的複雜性,大多數產品的反應並不好。
OpenAI推出的多模態大型語言模型,可以通過視覺識別讓AI知道人們在看什麼,在做什麼,並能提供關於這些行為和事物的進一步資訊。 當大型語言模型開始輕量級化時,一些小型裝置也可以配備模型,這些模型可以對使用者請求提供即時反饋。 考慮到人們對私隱和安全的重視,人們可能需要一段時間才能接受智慧型眼鏡,以及一些內建攝像頭的人工智慧裝置。
The Information認為,帶有AI助手的智慧型眼鏡可能會成為與智慧型手機一樣具有變革性的產品。 它不僅可以作為導師指導學生做數學題或問題,還可以隨時向周圍的人提供環境資訊,例如翻譯廣告牌、告訴使用者如何解決汽車故障等。
蘋果公司前工程經理、人工智慧搜尋公司Objective首席執行官巴勃羅·門德斯(Pablo Mendes)表示:“大型人工智慧模型對一切事物都是必不可少的,它們將在計算機、手機和其他裝置的底層架構中發揮作用。
在ChatGPT掀起的第三輪人工智慧熱潮中,多模態大模型屬於底層基礎設施,ChatGPT屬於直接應用,這是明確的答案。 但ChatGPT可以在哪些裝置上最大限度地發揮其應用潛力,哪些裝置是大型語言模型的最佳載體? 這些都成為OpenAI、Microsoft、Google等科技巨頭現在開始探索的方向。
從The Information的最新爆料來看,帶攝像頭的智慧型眼鏡已經成為眾多巨頭探索的重要方向,一些企業已經開始探索開發新的可穿戴AI裝置。 或者,嘗試在手機上適配各種AI模型。
事實上,不僅僅是科技巨頭有這種想法。 在中國,許多AR眼鏡製造商也認為這是機會所在。 “機械人和AR眼鏡可能是這波人工智慧模型的最大受益者。 一位關注AI行業十餘年的業內人士表示。
但在同樣的設計思路下,誰能最終調優出最好的輕量級AI模型呢? 誰能打造出最實用的智慧型眼鏡? 我們將繼續關注科技巨頭的進展,以找出答案。
*:the information