1.這是我體驗過的第乙個由智慧型手機廠商自主研發的大語言模型,基於vivo推出的藍心模型的“藍心V”。 作為乙個“大模神農”,我最近提醒自己,在測試任何模型服務之前,要“降低我的期望值”,尤其是那些太酷的demo。 但對於藍心模型,我的感覺是:它符合預期。 這並不酷,但很實用。
2.作為智慧型手機廠商推出的大型語言模型,人們通常認為它不算太大,引數低,出現效果可能不太好,在理解一些複雜的文字和意圖時會出現bug。 但我從藍心模型中得到的卻恰恰相反:它在創作和總結方面表現出很強的推理能力,可以達到80分以上,但它被基礎搜尋和一般寫作的表現所乘以。
3.要知道,目前搭載在vivo X100系列手機上的藍心模型,是專門為手機打造的端側場景和雲端兩用模型,遠沒有千億級引數的大模型那麼“大”。 但是當我給它丟擲一篇關於大模型的出現是否真實的文章時,它非常準確地找到了最關鍵和最核心的論點:大模型的出現是研究者選擇的指標,而不是模型能力擴充套件的結果,所以它並不是真正的“智慧型湧現”。
4.這真的讓我大吃一驚。 由於“讀取文件”對於大型語言模型來說是一項艱鉅的任務,因此並非所有模型都能很好地閱讀。 例如,ChatGPT 讀取複雜而冗長的 PDF 檔案的能力最近急劇下降,尤其是在泛化方面。 但藍心大模型的藍心可以一下子找到最關鍵的論據。 值得一提的是,在測試過程中,我特意檢查了“本地總結”功能,完全利用vivo X100機自身的算力(聯發科天璣9300)和推理能力進行總結,在一定程度上打破了“大模型必做大”的固有認知。
5.然後,我發現了乙個更有趣的現象:當你把乙個較長的**上傳到藍心模型時,它仍然可以提取出最關鍵、最重要的想法和發現,但延伸的敘述往往草率,只有幾句話,“好好讀而不求懂”。 在閱讀理解能力方面,它與其他一些大型模型聊天機械人形成鮮明對比:許多模型具有較強的資訊分解能力,而提煉和概括能力不足。 藍心模型的總結提煉非常準確,但不願意拆解細讀,不願意在解釋問題上浪費令牌,這應該與模型的大小密切相關。
6.在手機本地**搜尋和圖片搜尋方面,藍心模型的響應速度堪稱絲般流暢,比如在出行攻略寫作中一秒內找到手機所有本地儲存的“關於紫禁城**”等,表現還算不錯。在形象創作上,紫禁城、牛肉拉麵、麻辣香鍋都可以接近ChatGPT的Dall-E水平,但想象力不如ChatGPT豐富,也拍不出特別瘋狂、開腦筋的畫面。 然而,當我要求它畫出“乙個深刻思考人類未來的人工智慧”時,它居然給了我乙個具有如此意境的**。
7.此外,Blue Heart 模型通過自然對話操縱應用程式的能力非常出色。 我告訴它,我想點麻辣香果的外賣,它會告訴你,這款新手機沒有安裝美團,當你同意安裝時,它會自動**美團app到應用商店。 然後,幫你開啟一頁全是“麻辣香鍋”。 當然,你可以認為蘋果Siri也做到了,因為作為系統的底層助手應用,在這款手機上輕鬆獲取許可權。 但不同的是,Siri只能接受非常清晰的指令開啟哪個APP,面對一般的自然語言需求什麼都做不了,它是乙個嵌入式智慧型語音模組,但藍心小V已經是擁有自然語言理解能力的副駕駛,有了藍心模型的加持。
8.總之,在調優了幾個關鍵功能之後,你就會有更自信的方向和判斷力,即端側大模型建立可靠。 而且,裝置端大模型甚至整個大語言模型的實現,到千家萬戶、萬物生物,不管你願不願意,可能還是要看手機廠商。
9.在某種程度上,適配手機的大模型其實更接近Microsoft最近強調的“小語言模型”,其引數通常不能超過100億,否則手機記憶體將無法執行,這也意味著它只能在特定方面進行訓練,或者將模型訓練到一定的輸出水平, 然後停下來。對於絕大多數人來說,這已經足夠了。 Mistral AI是一家最近火起來的巴黎創業公司,就是這樣一家小型模型公司。
10.根據藍心模型公布的引數,利用1700億引數雲模型提煉訓練出乙個引數量級較低的模型,得到乙個引數70億的模型,同時在雲端和手機端進行計算和推理, 而10億引數模型的計算和推理只在裝置端。這也是高通、聯發科、英特爾和AMD為了擺脫英偉達的詛咒而不斷嘗試和修補的。 如果模型沒有塞進手機和 PC,他們就沒有機會。 但是可以塞進手機和PC的模型往往不夠大,是小模型。
11.小模型有小模型的好處:只專注於做好幾件事,不做冗長的資訊和輸出,有幾個亮點,其他方面一般。 例如,Mistral AI,** 被寫成比 ChatGPT 更強大。 再比如藍心模型,在細化和處理本地文件方面比其他模型更準確,在個人手機中管理文件和日程更高效。 其他繪圖、寫作和搜尋也可用,但它們並不突出。 但那又怎樣?
12.在目前關於中國生成式人工智慧未來的討論中,出現了乙個奇怪的現象:高高在上的人不落地,活在地上的人沒有AI意識。 大部分人從來沒用過ChatGPT,可能聽說過文心一言、通益千文、ChatGPT,偶爾用過,自己看不出這些東西有什麼本質的變化。 而這些玩家,執著於大模型的引數、規模和基準評估結果,結果全部放在Hugging Face和GitHub上,幾乎從不向普通人推廣,沒有普通人的感覺。 AI開發者和使用者都無動於衷,這種情況短期內可能不會改變。
13.但是,如果智慧型手機製造商做大型語言模型,情況可能會有所不同。 主要原因是使用者很敏感。 當大模型內建到作業系統的底層時,它可以隨時呼叫、輔助和呼叫功能,就像藍心模型生長在原生態OS4上一樣,使用者會不由自主地需要它,需要它的幫助,測試它的潛力,甚至需要它的陪伴。 它可能不是乙個通用的大模型,它可能是乙個小模型,但它了解它的使用者,熟悉裝置中的資料,了解使用者習慣,保護使用者的私隱,可以幫助安排日程安排,開啟外賣選單,總結文件,挑選和選擇,並完成一些基本的寫作,對於大多數人來說,它是“足夠”和“可信”的AI。
14.推動大型語言模型的普及當然不是通過人工智慧程式設計來實現的,也不僅僅是重新整理SOTA評估的技術突破才能造福大多數人。 就像鞋子合適與否一樣,只有穿的時候才能知道,而款式是否合適,也只有用的時候才能知道。 我最近一直在有意識地“去聊天”:看**和文件靠kimi聊天,案頭工作靠文心一燕和chatglm,私人助理靠vivo藍心大模型,別的不為,因為它“合身”。 你不指望它能全面趕上ChatGPT,但我真的需要乙個可以在手機上使用,保護個人私隱和資料安全,並且平均分還算可以接受的“大模型”或“小模型”。
15.大型語言模型是供人類使用的,而不是用來吹噓的。