視覺中國。
文字 |發電廠, 作者 |張丹尼爾 埃德高玉磊.智慧型助手的概念自誕生以來就離不開人類對AI的想象,Siri於2024年2月首次作為獨立助手推出。 後來,蘋果在2024年4月收購了Siri,並將其整合到iPhone 4S中。
從那時起,Siri 已成為 Apple 裝置的標準功能。 語音助手也正在成為智慧型手機的標準配置。
隨著大型機型成為時代主流,人類再次看到了讓手機和人一樣智慧型的一線曙光。 從2024年下半年開始,小公尺、OPPO、vivo等手機廠商紛紛宣布進軍市場,組建團隊,為新系統增加大模型能力:經過幾年的市場規模萎縮,手機廠商希望AI大機型能夠成為未來五年或更長時間持續吸引使用者換手機的增長點。
手機上出現的大機型確實成為了2024年手機行業最熱門的話題:到2024年1月,中國手機市場前5名中,除了蘋果之外,都發布了自己的端側大機型產品。
從無人看管到賽道上人頭攢動,只用了半年時間。 隨著手機廠商在發布會上展示的自動通話記錄生成、AI影象處理等常見應用場景的融合,沒有人會懷疑手機大機型的前景,但是我們距離智慧型端側大機型手機還有多遠呢?
團隊的創始規模通常很能說明問題:小公尺擁有一支3000多人的AI團隊,而Vivo已經擁有一支1000多人的團隊,致力於生成式AI領域的產品。
雖然已經組建了龐大的研發團隊,但圍繞AI大模型產品自主研發的爭議並沒有消失:在裝置端發布大模型產品時,手機廠商會花費大量篇幅介紹自己在AI領域的長期投入,但這其實混淆了語音助手背後大模型的本質。
毫無疑問,大模型的實際一面是手機廠商的秘密,但從手機廠商在生成式AI領域的投入步伐中,還是可以看出一些線索。
據相關廠商知情人士透露,目前vivo的大模型是在智普AI基礎模型的基礎上改進的,小公尺本身也是智普AI的股東,並於2024年10月參與了智普AI的投資; 今年4月,在阿里雲峰會上,OPPO在阿里雲官方發布的企業專屬大模型合作榜單中排名第一。
同時,業內人士還向記者透露,手機廠商已經花費數千萬美元購買基座機型,讓面對語音助手呈現給普通使用者的大機型產品,最終能夠適應硬體的結構,給人一種超關線的大機型體驗。
對於這些廠商來說,目前自主研發的大模型暫時無法滿足使用者對大模型能力的需求,所以主要的選擇是從市場上購買現成的預訓練模型,並在此基礎上進行調整。 再加上發布時的營銷方式,無意中購買的預訓練模型變成了“自研”。
此外,由於目前存在《生成式大模型管理服務暫行辦法》帶來白名單監管制度,手機廠商想要趕上這股熱潮,並在此基礎上購買現有基礎機型,對“自主開發”進行微調,這是目前乙個短而快速的解決方案, 而它也是為數不多的“搶先發制人”的選擇之一。
然而,在這場注定是一場馬拉松的終端大型模型比賽中,這種先發優勢能在多大程度上保持下去,值得懷疑。
目前,在手機廠商公布的多模態大模型方案中,裝置側大模型屬於多體積的最低級別,引數數量往往只有上一級的百分之一。 實際操作效果自然是不一樣的。
但是,裝置端模型存在的價值是毋庸置疑的,它是為了解決自云模型誕生以來就存在的問題,使用者對雲伺服器的每次請求都會產生一定的成本,也是解決使用者資料私隱問題的根本途徑。
大型模型技術的飛速發展,不僅讓我們的生活更輕鬆,也讓私隱暴露比以往任何時候都更具風險:史丹福大學的乙個研究團隊最近發布了乙個在10萬個隨機位置和50萬個街景上訓練的大型模型**,該模型可以以92%的準確率從資訊中快速識別攝影師的當前位置。
目前不同手機廠商的策略略有不同,但裝置端模型是任何廠商都無法避免的必須:完全執行在裝置端的裝置模型在未來會變得更加重要。
解決完技術路線問題後,剩下的主要問題就變成了硬體:70億引數級別是當前“甜蜜點”關鍵節點,70億引數大模型的正常模型大小約為28GB大約 9GB,儲存和記憶體使用量都達到了這個量級。
但是,在減小模型尺寸和提高模型效能的過程中仍有很大的改進空間:開發人員現在甚至可以在2024年發布的諾基亞9500的硬體上執行乙個大小為70億個引數的大型本地模型。
a weekend ai project: running a 7b large language model on a nokia 9500 from 2004
一方面,這反映出裝置端的大模型在過去一年中一直在以驚人的速度發展和迭代,另一方面,為AI設計的硬體可以大大提公升目前水平上大型AI模型的執行速度上限。 如今,配備 TPU 的 Google Tensor 系列處理器在離線環境中的處理速度達到了每秒 20 個令牌,而台式機 MacBook Air M2 的處理速度為每秒 5 個令牌。
移動端實現了比桌面端更快的令牌處理速度,這要歸功於在設計時考慮到深度學習的硬體:例如,谷歌和三星聯合定製的 Tensor 系列 SoC 整合了用於人工智慧加速器的專用積體電路 (ASIC),使其比其他廠商具有巨大的優勢:這種優勢不僅體現在 2023 年的第一波裝置端大模型上, 但在隨後的比賽中也會更加明顯。
新發布的高通驍龍 8 Gen 3 SoC 晶元,已經支援在裝置端離線執行 100 億引數(10B)級大模型,並展示了在手機端執行 Llama2 的能力。
目前,手機側大機型的天花板主要體現在手機執行記憶體的壓力上,這也是手機廠商現階段普遍只選擇旗艦手機來測試裝置側大機型的直接原因。 因此,除了硬體的專用設計外,模型本身效能的優化也依賴於模型的迭代,這需要雲計算服務提供的海量算力。
利用手機閒置算力來保障裝置側大模型所強調的使用者資料安全的前景看似頗具吸引力,但現階段還不是乙個能夠支撐足夠使用者體驗的解決方案,其定位在現階段更像是對雲端大模型的補充。 隨著裝置端大模型功能的增長,很快就會看到新的變化。
無論是華為、谷歌,還是尚未進入遊戲的蘋果,在以往的晶元設計中,都有針對AI的專用算力的適配,尤其是已經存在了幾年的NPU,直接決定了裝置側AI的智慧型化。
在現有語音助手形式的基礎上,整合了裝置側雲大模型的互動入口,是閾值最低、相對實現效果最好的移動AI大模型的互動方式。
低門檻的進入也意味著更強大的競爭對手的湧入:幾乎沒有人願意放棄接管手機智慧型助手的可能性,據安卓權威機構稱,在最近的一次更新中新增了ChatGPT,允許使用者將ChatGPT設定為系統中手機上的預設語音助手, 並直接呼叫 ChatGPT-4 的語音互動能力。
不過,手機硬體廠商也有自己的優勢:利用大模型能力,讓手機硬體現有的第一方能力走得更遠,這是目前幾乎所有玩家的共同選擇。
去年 11 月,谷歌首次向公眾發布 Gemini 時,為了更好地展示其在裝置端的應用場景,整合了 Android 14 自帶的錄音筆 App 和 Gboard 英文輸入法。 使錄製的語音轉文字更快,同時提高準確性。
在目前發布的國內手機廠商中,裝置端模型的應用也已經能夠在本地影象識別、處理、通話錄音等領域展現出驚人的能力,因為這些概念對於手機廠商來說並不陌生,在AI模型的概念廣為人知之前,AI和深度學習技術在手機端的應用場景很多: 從手機計算攝影到後台記憶體排程,再到桌面互動動畫,都有AI技術的影子。
不過,更具想象力的應用場景依然是第三方應用生態:智慧型語音助手本身就具有開啟應用層面的捷徑作用,幫助直接觸碰某項特定功能,比如開啟日曆、支付、預訂應用,幫助使用者一鍵預訂高鐵車票。 然而,如此夢幻般的場景,看似觸手可及,但實現卻存在更多障礙。
一直以來,手機廠商都很清楚使用者不知道如何使用語言助手的事實:OPPO發布安第斯GPT後,OPPO首席產品官劉作虎表示,不做大機型的手機公司將毫無用處,曾幾何時在接受**採訪時也表示,真正使用智慧型助手的使用者並不多。
語音助手長期“低能耗”的現實,讓多年來一直在AI領域投資的智慧型手機廠商有意無意地忽視了構建生態系統的重要性。 對開發生態系統的投資遠遠落後於硬體和生成式人工智慧行業的發展。 儘管小公尺、華為、vivo、OPPO相繼發布了開發者在2024年適配端側大機型的開發規範,但對於如何快速將更多應用服務融入自有生態,仍然缺乏有效的解決方案。
妙雅相機等獨立生成式AI應用的爆發,也在鼓勵更多的第三方應用甚至獨立開發者加入到手機機型的競爭中來,但這更多的是一場“單獨戰鬥”,沒有足夠的利潤驅動,手機廠商很難將這些第三方應用高效地整合到自己的大機型產品中。
事實上,正是因為大型號有潛力真正顛覆體驗,才暴露了多年來存在的根深蒂固的問題,一位手機大型號的產品經理告訴記者。
為了解決這個問題,手機作業系統中像“強力膠”一樣的通用介面將是未來大模型生態中存在的“基礎設施”:隨著 Gemini 的發布,谷歌也在 Android 14 中整合了 API,供開發者自由適配自己的應用來呼叫本地 Gemini 能力。 未來,所有裝置端大模型都會有更多通用的API開發介面。
但這樣的更新在很大程度上依賴於谷歌,在這一點上,它將受到官方 Android 更新的步伐的影響。 行業內缺乏統一的開發介面將成為未來不可避免的事件,因此擁有硬體和生態的廠商將擁有更明顯的後發優勢。 這就是大模型的產品經理如何看待未來裝置端大模型生態系統的狀態。
歸根結底,大模型的概念終於落地在手機上,與應用生態的深度融合幾乎是個無法迴避的問題。 生成式AI能在多大程度上真正接管手機的日常使用,也取決於此,這將是手機廠商和生態下游開發者競爭合作的新戰場。
現在說誰是贏家還為時過早,但手機無疑是目前最適合大機型成長的終端裝置之一。 期待已久的端端大機型將帶來下乙個“iPhone時刻”,更有可能最終擁有完整的大機型開發能力和晶元設計。 製造能力,以及製造商的生態吸引力。
手機廠商在端側模式的第一輪已經結束,手機端側模式已經走在了前列,但真正的領頭羊還沒有出現。 只有當AI模式真正成為智慧型手機的質變時,使用者才會自然願意為更好的體驗買單。