明年全球AI競爭勢必進入新一輪高潮,各大科技巨頭之間的智慧型眼鏡爭奪戰也將成為焦點。
隨著多模態人工智慧的興起,Meta、谷歌、Microsoft、OpenAI 等公司正在競相將更強大的人工智慧技術應用於智慧型眼鏡和其他可穿戴裝置。
根據The Information的最新報道,谷歌已經終止了其增強現實(AR)眼鏡專案,但仍在開發智慧型眼鏡軟體。 上週,谷歌最強大的人工智慧模型Gemini展示了其多模態能力,朝著建立“永遠線上”的AI助手的目標邁出了第一步,但可能還需要數年時間才能成為現實。
**援引一位知情人士的話說OpenAI 最近考慮將其具有視覺功能的物體識別軟體 GPT-4 嵌入到 Snapchat 母公司的 Spectacles 智慧型眼鏡產品中,這可能會為其帶來新功能。
Meta 在智慧型眼鏡中嵌入了乙個多模態 AI 語音助手,他們正在與奢侈太陽鏡公司 Ray-Ban 合作開發,它可以描述佩戴者所看到的內容,提出襯衫和褲子搭配的建議,並且可以將文字從西班牙語翻譯成英語。
此外,近幾個月來,亞馬遜還在討論一種新的人工智慧裝置,據說該裝置具有類似的視覺功能。
據報道谷歌在今年年中取消了智慧型眼鏡的開發,目前仍在為其開發軟體,谷歌計畫將軟體授權給硬體製造商,類似於為三星等手機製造商開發Android移動作業系統的方式。
谷歌上週發布了**,展示了Gemini的一些功能,例如能夠自動識別使用者表演的電影,對他們面前的物體提出建議,以及學習新遊戲習。
Gemini 家族目前有 Gemini Ultra、Gemini Pro 和 Gemini Nano 三大成員,將面向不同的客戶群體開放,但谷歌尚未在 ** 中透露其所謂的 Gemini 高階版,使用者互動在 ** 中也已經渲染。
儘管如此,它還是展示了谷歌的願景,即建立乙個“始終”的人工智慧助手,該助手可以實時響應並理解使用者正在做什麼和看到什麼。
一位知情人士向《資訊報》透露實現這種“環境計算”需要數年時間。 作為第一步,谷歌正在重新設計Pixel手機的作業系統,嵌入乙個小型Gemini模型,以驅動Pixie AI助手處理更複雜和多模態的任務。 根據此前的報道,小精靈可以根據使用者拿走的**,推薦附近的門店購買相關產品。
谷歌的核心搜尋技術是提供使用者需要的資訊,因此開發這樣的AI裝置非常符合谷歌的定位。 谷歌的眼鏡在十年前進行了測試,但失敗了,使用者沒有為它們付費,因為它們的外觀笨拙且實用性有限。
後來,谷歌對攝像頭設計進行了調整,推動安卓手機廠商將手機攝像頭打造成“第三隻眼”,可以掃瞄環境並將影象傳送到谷歌雲進行分析,為使用者提供上下文資訊,但這個想法最終縮水到圖片搜尋應用谷歌鏡頭。
一位知情人士援引知情人士的話說,OpenAI 最近考慮將其物件識別軟體 GPT-4 和 Vision 嵌入到 Snapchat 的母公司 Snap 的 Spectacles 智慧型眼鏡產品中,這可能會為資訊帶來新功能。
早在今年 3 月,OpenAI 就展示了其 AI 軟體從手繪草圖構建的能力。 或許是為了充分發揮大模型的力量,此後,OpenAI CEO Sam Altman 多次表示有興趣打造一款基於 AI 的新型消費裝置。
值得注意的是,OpenAI 沒有自己的裝置團隊,但它可以與其他公司合作,例如 Snap 等裝置製造商或 AI 晶元設計人員。
此外,Altman正在投資一家名為“Humane”的AI裝置製造商,該公司生產帶有攝像頭的可穿戴裝置“AI Brooch”,並計畫製造可以取代智慧型手機的AI裝置。
Microsoft正在積極推進人工智慧技術的開發,這些技術可以應用於智慧型眼鏡和其他小型裝置,無論是基於語音還是影象識別,旨在實現更多樣化的智慧型硬體。
資訊認為這項工作可能基於Microsoft現有的HoloLens AR頭顯。
根據該報告,Microsoft正在為Hololens嵌入AI軟體,該軟體允許使用者通過語音與由OpenAI技術驅動的聊天機械人討論相機捕獲的物體。
蘋果在多模態AI技術上相對落後於競爭對手,但在這方面也做了一些工作。 具體說來Apple 已經為即將推出的 Vision Pro 頭顯應用多模態 AI 技術準備了硬體。
蘋果在人工智慧演算法方面落後於同行,直到今年,它才專注於大型語言模型(LLM),而這些模型還處於早期階段。
《資訊報》報道沒有跡象表明Vision Pro在不久的將來將具有多模態功能,例如複雜物體識別。
不過,蘋果多年來一直致力於增強Vision Pro的計算機視覺能力,使其能夠快速識別周圍環境,例如識別家具,確定環境是客廳、臥室還是廚房,蘋果目前正在開發一種可以識別影象和**的多模態模型。
Vision Pro 的主要障礙之一是它笨重、笨重,不太適合戶外穿著。 今年早些時候,有傳言稱蘋果暫停了AR眼鏡的開發,專注於頭顯。 目前尚不清楚眼鏡專案何時重啟,但未來可能會實施多模式功能。
12 月 12 日,Meta 與奢侈太陽鏡公司雷朋合作的新產品 Meta 和雷朋開始推出多項 AI 功能:拍照、計算食物卡路里、識別植物、翻譯等。 從**和扎克伯格的試用來看,Meta Ray-Bans智慧型眼鏡AI功能的表現似乎相當不錯。
早在今年9月,扎克伯格在接受**採訪時就透露,Meta將在智慧型眼鏡上推出多模態AI功能。 所謂多模態,是指支援文字、影象、語音等多種形式的媒體輸入的AI。
據報道,Meta還計畫在未來使眼鏡能夠檢測人類感官資料,進一步增強多模態能力。 眼鏡上的高通AI晶元目前似乎表現良好,Meta計畫未來進一步優化使用流程。
目前,Meta 眼鏡的售價已經為 300 美元,AI 功能處於早期測試階段,僅供部分使用者使用。 但值得指出的是,Meta 也曾表示,將使用匿名資料來幫助改善眼鏡的 AI 服務,這可能會讓許多注重私隱的使用者感到不舒服。
據直接了解該項目的人士透露,今年夏天,亞馬遜Alexa團隊計畫推出一款能夠執行多模態AI的新裝置。
該人士表示,該團隊對如何減少在裝置上處理影象、**和語音的人工智慧計算和記憶體要求特別感興趣。
報道稱,目前尚不清楚該專案是否會獲得資助,也不清楚該裝置打算為客戶解決什麼問題,但它與亞馬遜的舊Echo系列語音助手裝置是分開的。
Alexa團隊多年來一直在研究新裝置,包括一款名為Echo Frames的智慧型音訊眼鏡。 然而,目前尚不清楚亞馬遜是否會在眼鏡的基礎上開發具有視覺識別功能的裝置,因為它不帶有螢幕顯示器或攝像頭。