三少爺溫。
自 2022 年底 ChatGPT 問世以來,大模型的興奮一直到現在都喧囂不已。 在網際網絡巨頭、ICT巨頭、雲服務商、初創企業在這條賽道上密不可分地奮鬥的同時,中國車企研發的大型車型也陸續上車。
在去年11月的智傑S7發布會上,華為盤古大模正式上車,大模聯接智慧型助手小藝,展現了“私家車顧問”的能力。 12月,理想汽車將OTA 5推至L7 8 9使用者0、mindGPT正式開啟內測,重點關注助手功能,涵蓋出行、用車、娛樂、知識百科四大場景。 在12月底的M9發布會上,於承東展示了盤古模型可以實時觀看的同時“百科問答”能力,最近一次展示肌肉的大模型是今年1月的比亞迪夢想日,比亞迪以一代旅行策略為例,展示了自主研發的一款大模型的實力。
理想的汽車。
也許是車企宣傳不當,或者是消費者期望值過高,這些大型車型最終並沒有給使用者帶來普遍的“WOW”感。 在“供需錯配”的背後,既有來自使用者體驗的表層原因,也有來自技術的深層原因。
經驗差距從何而來?
ChatGPT問世後,正如英偉達創始人兼CEO黃仁勳將其比作人工智慧領域的iPhone時刻,很多人對LLM大語言模型和生成式AI產生了極大的熱情,甚至有人用宗教狂熱喊出了“矽基文明終將取代碳基文明”的口號。 這種情緒是可以理解的,陷入股票競爭的現代人,熱切期待下一次技術革命,也是很自然的。
只不過,隨著ChatGPT的問世越來越遠,GPT大模型帶來的新鮮感也越來越少。 越來越多的人覺得GPT的發展似乎與他們的工作和生活沒有太大關係。
***openai
他們的感覺是對的,但背後的原因並不是“大模型都很好,但我不喜歡”,也不是因為大多數人對新技術不敏感,而是因為GPT可以“超預期”的設計場景與你我無關。
麥肯錫。
GPT有智慧型助手情感陪伴、虛擬專家、內容生成、開發和自動化任務五大應用場景,除了開發前期的自動化任務外,在其他應用場景中,“超預期”在虛擬專家(幫助研究人員閱讀**)和**開發(幫助程式設計師寫**)和“只寫**,讀**”中起著作用,不適合汽車場景, 因此,整車大模型的應用場景只留下了智慧型助手的情感陪伴和內容生成。
不知道大家有沒有注意到,上面提到的三家車企,在展示大模型的能力時,只展示了智慧型助手和內容生成應用場景。 但是,可以通過ChatGPT或文心一言在桌面上實現內容生成,明顯高於大多數本土車企大車型的能力,無需花費自己的流量費用,在耐心耗盡之前在車內生成“漂浮在太空中的電動汽車”; 乙個可以幫你開啟車窗、調節空調溫度的語音助手,或者乙個做旅行指南的旅行助手,都不符合那些習慣了看“智慧型”大場面的人的期待。 這些都不是“增值”體驗,因為大模型在車上,在汽車這樣的封閉空間裡,人們自然期待“情感陪伴”,來回互動和溫暖,但現在,大模型的溫暖並不像諾公尺多做幾句話那麼明顯。
最終創造的情境是,在汽車的場景中,消費者原本希望的大模型是春風般情感的陪伴,至少是乙個認識我、理解我的“聊天機械人”,但結果卻是百科全書問答、包含汽車知識、文旅知識的專家系統等冷冰冰的機器。 車企提供的大型車型與消費者需求之間存在供需不匹配,在巨大的心理差距下,失望在所難免。
那麼,大模型的開發者是不是不夠努力呢? 其實不然,主要原因是消費者“想得太多”或者過於樂觀。 如果開發者要反思自己是否努力過,肯定會像那個因為愛情而討厭李佳琪的豬姑娘一樣抱怨:“佳琪,我真的很努力。 ”
為什麼消費者過於樂觀,可以用兩個獨立的問題來回答。 一、世界上最先進的大型模型處於什麼發展階段; 二、本土車企研發的大型車型與“頂尖學霸”的差距有多大?
大型模型離人腦還很遠
先撇開立場的爭論和似是而非的認知,我們可以從技術引數維度客觀地看待最先進的GPT模型的發展階段。
GPT 的“智慧湧現”能力或效能取決於大模型的大小,而規模衡量的兩個最關鍵的指標是引數的數量和訓練語料庫(token)的數量。 在大模型結構設計足夠好的前提下,可以認為引數的數量決定了大模型效能的“理論”上限和上限,訓練語料庫的數量決定了大模型的“實際”訓練程度。
為了幫助你理解這兩個指標的意義,讓我們用人腦做乙個不那麼嚴格的類比。 畢竟,人工智慧領域一直把人腦作為最大的靈感**。
當它們落地時,娃娃們的大腦已經有了良好的結構和足夠的引數(100萬億尺度),但無知的幼崽們卻需要在各種環境中被熏陶、毆打、激勵和訓練,以發展情商、智商和各種“商數”,並塑造大腦的神經元、突觸和皮層,才能在這時而溫暖時冷的環境中發展出獨立生存和發展的能力, 有時是友好的,有時是叢林社會。換句話說,人腦的結構和引數是“與生俱來的”,決定了娃娃理論上能發揮多少潛力,但具體程度取決於後天的訓練。
因此,提公升GPT效能的方法主要有兩種:1、推高大模型的引數規模; 2. 訓練更多資料(以代幣形式)。 我們可以拿 OpenAI 近年來的 GPT 版本來說明引數規模和訓練資料規模在提高效能方面的作用。
2020年,OpenAI發布了GPT-3,該模型的引數數量為1750億,訓練代幣數量為3000億,這個資料真實有效,來自Andrej Karpathy(特斯拉AI和自動駕駛部門前負責人)在2023年Microsoft Build大會上。 在不改變模型結構和引數規模的前提下,OpenAI將更多的訓練語料餵給GPT-3,提公升了模型的推理、語言理解和生成以及基礎問題解決能力,並將版本號公升級為GPT-35、在此基礎上,推出了風靡全球的ChatGPT。 GPT-4,將於 2023 年推出,雖然 OpenAI 尚未透露其引數大小和訓練資料量,但經過一輪又一輪的爆料,大致可以認為其參數量高達 18萬億,訓練代幣數量為13萬億。
Microsoft 構建會議。
GPT-4 與人腦相比水平如何? 據相關研究,人腦的神經元大約有860億個,由大約100萬億個突觸連線,對應深度學習神經網路的引數數量,而人腦的“引數”大約是100萬億。 什麼是訓練令牌? 有人估計,光是字數,人類一生訓練的代幣數量大約在數百億到一千億之間,考慮到各種形象、感受、情緒,代幣數量將會增加好幾個數量級。
且不說在LLM大語言模型之後會不會有更接近人類智慧型的“新大模型”,只要將GPT與人腦進行對比,至少在這個階段,頂級GPT和人腦相差甚遠。
更重要的是,本土車企研發的大型車型與GPT-4之間還有很大差距。
車企大模式受開源限制
頂尖學員的成績揭曉,下面就是從引數數量和訓練代幣數量兩個維度,對比頂級大模型與國內車企全棧自研大模型。
從數量上看,本土車企的自主研發大型車型確實不少,但除了盤古大模型已經公開了引數數量(萬億級)之外,沒有其他車企公開了自主研發的大模型的引數數量。 不過,理想汽車曾在去年的 Family Tech Day1 上透露了用於培訓的代幣數量3萬億,蔚來還透露,NOMI接入的GPT大模型的代幣數量高達1000億,所以就目前而言,無論引數數量多少,僅對比訓練代幣數量,GPT和GPT-4在Ideal和NIO之間存在乙個數量級的差距。
其實引數規模上的差距也很大,因為大部分全棧自研大模型都是基於開源大模型的,開源大模型的引數規模一般不高。
不僅在國內,在世界範圍內,開發大模型的方法也只有幾種:在開源大模型的基礎上做調優訓練,呼叫其他大模型的API,在其他大模型的基礎上做應用,真正開發大模型。 OpenAI是真正自研大模型的巨頭,他們正專注於推動玩家在賽道上選擇第二種和第三種方式,然而,鑑於OpenAI開發和發布的API數量仍然很少,大家要麼老老實開發自己的大模型,要麼在開源大模型的基礎上進行訓練。
從歷史底蘊和技術積累來看,真正研發出屬於自己的大型車型的國產車企恐怕並不多。 而且,就算是想“真正自主開發”乙個大模型,也要從乙個引數少的模型做起,大家都是這樣來的。 目前,月活躍度排名全國第一的百川模型,引數從70億、130億、530億緩慢增加。 值得一提的是,OpenAI 的 GPT-3 不是開源的,開源 GPT-2 的引數規模只有 15 億左右,而 Meta 的開源 LLAMA 2 有三個版本:7B、13B、70B,並且已經用 2 萬億個代幣進行了訓練。 可以認為,基於開源大模型的全棧自研車模引數都在百億級,也與GPT-4相差一兩個數量級。
引數數量、訓練代幣數量和行業頂尖學生之間有著巨大的數量級差距,如果真的明白了這一點,就不會對本土車企研發的大型車型抱有太高的期望。
寫在最後
車載大模型的實際效能與消費者的心理預期存在一定差距,這主要是由於消費者的“樂觀”估計造成的。 我記得比爾·蓋茨曾經說過,“人們傾向於高估未來一兩年將取得的成就,而低估了未來十年將取得的進展。 這句話的前半部分很可能適用於GPT,這是一項劃時代的新技術。
後半句話呢? 在比爾·蓋茨和黃仁勳等大佬眼中,GPT模型是幾十年來最偉大的技術發明,模型的未來值得期待。 因此,我們不妨對車內的大模型保持謹慎和樂觀。