車載模型是原子彈還是茶蛋？

三少爺溫。

自 2022 年底 ChatGPT 問世以來，大模型的興奮一直到現在都喧囂不已。在網際網絡巨頭、ICT巨頭、雲服務商、初創企業在這條賽道上密不可分地奮鬥的同時，中國車企研發的大型車型也陸續上車。

在去年11月的智傑S7發布會上，華為盤古大模正式上車，大模聯接智慧型助手小藝，展現了“私家車顧問”的能力。 12月，理想汽車將OTA 5推至L7 8 9使用者0、mindGPT正式開啟內測，重點關注助手功能，涵蓋出行、用車、娛樂、知識百科四大場景。在12月底的M9發布會上，於承東展示了盤古模型可以實時觀看的同時“百科問答”能力，最近一次展示肌肉的大模型是今年1月的比亞迪夢想日，比亞迪以一代旅行策略為例，展示了自主研發的一款大模型的實力。

理想的汽車。

也許是車企宣傳不當，或者是消費者期望值過高，這些大型車型最終並沒有給使用者帶來普遍的“WOW”感。在“供需錯配”的背後，既有來自使用者體驗的表層原因，也有來自技術的深層原因。

經驗差距從何而來？

ChatGPT問世後，正如英偉達創始人兼CEO黃仁勳將其比作人工智慧領域的iPhone時刻，很多人對LLM大語言模型和生成式AI產生了極大的熱情，甚至有人用宗教狂熱喊出了“矽基文明終將取代碳基文明”的口號。這種情緒是可以理解的，陷入股票競爭的現代人，熱切期待下一次技術革命，也是很自然的。

只不過，隨著ChatGPT的問世越來越遠，GPT大模型帶來的新鮮感也越來越少。越來越多的人覺得GPT的發展似乎與他們的工作和生活沒有太大關係。

***openai

他們的感覺是對的，但背後的原因並不是“大模型都很好，但我不喜歡”，也不是因為大多數人對新技術不敏感，而是因為GPT可以“超預期”的設計場景與你我無關。

麥肯錫。

GPT有智慧型助手情感陪伴、虛擬專家、內容生成、開發和自動化任務五大應用場景，除了開發前期的自動化任務外，在其他應用場景中，“超預期”在虛擬專家（幫助研究人員閱讀**）和**開發（幫助程式設計師寫**）和“只寫**，讀**”中起著作用，不適合汽車場景，因此，整車大模型的應用場景只留下了智慧型助手的情感陪伴和內容生成。

不知道大家有沒有注意到，上面提到的三家車企，在展示大模型的能力時，只展示了智慧型助手和內容生成應用場景。但是，可以通過ChatGPT或文心一言在桌面上實現內容生成，明顯高於大多數本土車企大車型的能力，無需花費自己的流量費用，在耐心耗盡之前在車內生成“漂浮在太空中的電動汽車”; 乙個可以幫你開啟車窗、調節空調溫度的語音助手，或者乙個做旅行指南的旅行助手，都不符合那些習慣了看“智慧型”大場面的人的期待。這些都不是“增值”體驗，因為大模型在車上，在汽車這樣的封閉空間裡，人們自然期待“情感陪伴”，來回互動和溫暖，但現在，大模型的溫暖並不像諾公尺多做幾句話那麼明顯。

最終創造的情境是，在汽車的場景中，消費者原本希望的大模型是春風般情感的陪伴，至少是乙個認識我、理解我的“聊天機械人”，但結果卻是百科全書問答、包含汽車知識、文旅知識的專家系統等冷冰冰的機器。車企提供的大型車型與消費者需求之間存在供需不匹配，在巨大的心理差距下，失望在所難免。

那麼，大模型的開發者是不是不夠努力呢？其實不然，主要原因是消費者“想得太多”或者過於樂觀。如果開發者要反思自己是否努力過，肯定會像那個因為愛情而討厭李佳琪的豬姑娘一樣抱怨：“佳琪，我真的很努力。 ”

為什麼消費者過於樂觀，可以用兩個獨立的問題來回答。一、世界上最先進的大型模型處於什麼發展階段; 二、本土車企研發的大型車型與“頂尖學霸”的差距有多大？

大型模型離人腦還很遠

先撇開立場的爭論和似是而非的認知，我們可以從技術引數維度客觀地看待最先進的GPT模型的發展階段。

GPT 的“智慧湧現”能力或效能取決於大模型的大小，而規模衡量的兩個最關鍵的指標是引數的數量和訓練語料庫（token）的數量。在大模型結構設計足夠好的前提下，可以認為引數的數量決定了大模型效能的“理論”上限和上限，訓練語料庫的數量決定了大模型的“實際”訓練程度。

為了幫助你理解這兩個指標的意義，讓我們用人腦做乙個不那麼嚴格的類比。畢竟，人工智慧領域一直把人腦作為最大的靈感**。

當它們落地時，娃娃們的大腦已經有了良好的結構和足夠的引數（100萬億尺度），但無知的幼崽們卻需要在各種環境中被熏陶、毆打、激勵和訓練，以發展情商、智商和各種“商數”，並塑造大腦的神經元、突觸和皮層，才能在這時而溫暖時冷的環境中發展出獨立生存和發展的能力，有時是友好的，有時是叢林社會。換句話說，人腦的結構和引數是“與生俱來的”，決定了娃娃理論上能發揮多少潛力，但具體程度取決於後天的訓練。

因此，提公升GPT效能的方法主要有兩種：1、推高大模型的引數規模; 2. 訓練更多資料（以代幣形式）。我們可以拿 OpenAI 近年來的 GPT 版本來說明引數規模和訓練資料規模在提高效能方面的作用。

2020年，OpenAI發布了GPT-3，該模型的引數數量為1750億，訓練代幣數量為3000億，這個資料真實有效，來自Andrej Karpathy（特斯拉AI和自動駕駛部門前負責人）在2023年Microsoft Build大會上。在不改變模型結構和引數規模的前提下，OpenAI將更多的訓練語料餵給GPT-3，提公升了模型的推理、語言理解和生成以及基礎問題解決能力，並將版本號公升級為GPT-35、在此基礎上，推出了風靡全球的ChatGPT。 GPT-4，將於 2023 年推出，雖然 OpenAI 尚未透露其引數大小和訓練資料量，但經過一輪又一輪的爆料，大致可以認為其參數量高達 18萬億，訓練代幣數量為13萬億。

Microsoft 構建會議。

GPT-4 與人腦相比水平如何？據相關研究，人腦的神經元大約有860億個，由大約100萬億個突觸連線，對應深度學習神經網路的引數數量，而人腦的“引數”大約是100萬億。什麼是訓練令牌？有人估計，光是字數，人類一生訓練的代幣數量大約在數百億到一千億之間，考慮到各種形象、感受、情緒，代幣數量將會增加好幾個數量級。

且不說在LLM大語言模型之後會不會有更接近人類智慧型的“新大模型”，只要將GPT與人腦進行對比，至少在這個階段，頂級GPT和人腦相差甚遠。

更重要的是，本土車企研發的大型車型與GPT-4之間還有很大差距。

車企大模式受開源限制

頂尖學員的成績揭曉，下面就是從引數數量和訓練代幣數量兩個維度，對比頂級大模型與國內車企全棧自研大模型。

從數量上看，本土車企的自主研發大型車型確實不少，但除了盤古大模型已經公開了引數數量（萬億級）之外，沒有其他車企公開了自主研發的大模型的引數數量。不過，理想汽車曾在去年的 Family Tech Day1 上透露了用於培訓的代幣數量3萬億，蔚來還透露，NOMI接入的GPT大模型的代幣數量高達1000億，所以就目前而言，無論引數數量多少，僅對比訓練代幣數量，GPT和GPT-4在Ideal和NIO之間存在乙個數量級的差距。

其實引數規模上的差距也很大，因為大部分全棧自研大模型都是基於開源大模型的，開源大模型的引數規模一般不高。

不僅在國內，在世界範圍內，開發大模型的方法也只有幾種：在開源大模型的基礎上做調優訓練，呼叫其他大模型的API，在其他大模型的基礎上做應用，真正開發大模型。 OpenAI是真正自研大模型的巨頭，他們正專注於推動玩家在賽道上選擇第二種和第三種方式，然而，鑑於OpenAI開發和發布的API數量仍然很少，大家要麼老老實開發自己的大模型，要麼在開源大模型的基礎上進行訓練。

從歷史底蘊和技術積累來看，真正研發出屬於自己的大型車型的國產車企恐怕並不多。而且，就算是想“真正自主開發”乙個大模型，也要從乙個引數少的模型做起，大家都是這樣來的。目前，月活躍度排名全國第一的百川模型，引數從70億、130億、530億緩慢增加。值得一提的是，OpenAI 的 GPT-3 不是開源的，開源 GPT-2 的引數規模只有 15 億左右，而 Meta 的開源 LLAMA 2 有三個版本：7B、13B、70B，並且已經用 2 萬億個代幣進行了訓練。可以認為，基於開源大模型的全棧自研車模引數都在百億級，也與GPT-4相差一兩個數量級。

引數數量、訓練代幣數量和行業頂尖學生之間有著巨大的數量級差距，如果真的明白了這一點，就不會對本土車企研發的大型車型抱有太高的期望。

寫在最後

車載大模型的實際效能與消費者的心理預期存在一定差距，這主要是由於消費者的“樂觀”估計造成的。我記得比爾·蓋茨曾經說過，“人們傾向於高估未來一兩年將取得的成就，而低估了未來十年將取得的進展。這句話的前半部分很可能適用於GPT，這是一項劃時代的新技術。

後半句話呢？在比爾·蓋茨和黃仁勳等大佬眼中，GPT模型是幾十年來最偉大的技術發明，模型的未來值得期待。因此，我們不妨對車內的大模型保持謹慎和樂觀。

車載模型是原子彈還是茶蛋？

相關問題答案

原子彈爆炸後的廣島和長崎

原子彈製造的真相大白於天下！

麥克阿瑟原子彈提案

原子彈之路曼哈頓計畫（II）。

通往原子彈之路曼哈頓計畫（III）。