記者 李玉陽 上海報道
由英偉達主導的AI晶元市場已經很久沒有訊息了,但龍年農曆新年剛過,一家名為Groq的創業公司從前者手中奪走了“最快”AI推理晶元的稱號。
Groq 聲稱其 LPU(語言處理單元)的推理效能是 NVIDIA GPU 的 10 倍,而成本僅為十分之一。 此外,GROQ憑藉自主研發的推理晶元LPU,使大模型生成速度接近500個代幣/秒(文字中最小的單位),碾壓GPT-3每秒 5 個令牌 40。
這在社交媒體上引發了很多討論。 2月19日,Groq向使用者開放了產品體驗入口,“快”是Groq加速的開源模型帶來的最直觀的體驗。 乙個使用者登入了這家公司的**,輸入了乙個問題,它以閃電般的速度給出了答案,每秒 278 個代幣! 對此,有人評論說:“它的反應比我眨眼還快。 ”
不過,雖然GROQ的LPU推理速度很快,但這個速度也非常昂貴,成本也遠高於通用GPU。 此外,LPU也有些專業化,現在只能執行兩個mixtral 8 7B-32K和LLAMA 2-70B-4K開源模型。 至於GROQ的LPU未來可以執行什麼車型,第一財經記者聯絡了該公司進行採訪,但截至發稿時尚未收到回覆。
電子創新網CEO張國斌告訴記者:“任何AI演算法都可以使用NVIDIA的H100,但只有Mictral和LLAMA 2可以使用GROQ的LPU。 LPU是ASIC(特殊晶元),只能應用於特定型號,通用性差,價效比不高,所以不值得大肆炒作,以免誤導晶元企業在人工智慧領域的發展方向。 ”
用“快”震撼世界。
雖然它被稱為“歷史上最快的大型模型”,但 Groq 澄清說:“我們不是乙個大型語言模型。 我們的 LPU 推理引擎是一種新穎的端到端處理單元系統,可為具有順序元件的計算密集型應用程式(例如 AI 語言應用程式)提供最快的推理能力。 ”
據了解,Groq 由谷歌第一代張量處理單元 (TPU) 的建立者之一喬納森·羅斯 (Jonathan Ross) 於 2016 年創立。 他認為,晶元設計應該從軟體定義網路(SDN)中汲取靈感。
羅斯說,Groq的存在是為了縮小“貧富差距”,並幫助人工智慧社群中的每個人茁壯成長。 他還表示,推理對於實現這一目標至關重要,因為速度是將開發人員的想法轉化為業務解決方案和改變生活的應用程式的關鍵。
2021年,Groq獲得3億美元融資,由Tiger Global Management**和D1 Capital領投,總融資額為367億美元。
在 2023 年高效能計算大會 SC23 上,Groq 以每秒超過 280 個代幣的速度生成響應,創下了 LLAMA-2 70B 推理的新效能記錄。 2024 年 1 月,Groq 首次參與公開基準測試,並在 Anyscale 的 LLMPERF 排名中取得了優異的成績,遠超其他基於 GPU 的雲服務提供商。
2 月 13 日,Groq 在 ArtificialAnalysisAI 在其最新的 LLM 基準測試中再次獲勝,在延遲和吞吐量等關鍵效能指標上擊敗了 8 名參與者,處理吞吐量是其他推理服務的 4 倍,而 Mistral 自己的收費不到 1 3。
GroQ 創新的核心是其 LPU,旨在以前所未有的速度加速 AI 模型,包括 ChatGPT 等語言模型。 根據 GroQ 官網,LPU 代表語言處理單元,是一種新型的端到端處理單元系統,可以為具有順序元件的計算密集型應用程式提供最快的推理服務,例如大型語言模型 LLM。
為什麼 LPU 在用於 LLM 和生成式 AI 時比 GPU 快得多? Groq 網站解釋說,LPU 旨在克服 LLM 中的兩個瓶頸:計算密度和記憶體頻寬。 對於 LLM,LPU 的計算能力大於 GPU 和 CPU,並且通過減少計算每個單詞所需的時間,可以更快地生成文字序列。 此外,通過消除外部記憶體瓶頸,LPU 推理引擎可以提供比 LLM 上的 GPU 高幾個數量級的效能。
速度快的代價有點高
值得注意的是,與使用高頻寬記憶體 (HBM) 的 GPU 不同,GroQ 的 LPU 使用 SRAM 進行資料儲存。 不過,這種設計並不是創新的突破,據說崑崙和英國的Graphcore也採用了類似的內部儲存方式。
此外,Groq LPU 基於新的張量流處理器架構,其記憶體單元與向量和矩陣深度學習功能單元交錯,以加速機器學習工作負載固有的並行性推理。
在計算處理的同時,每個TSP還具有網路交換功能,無需依賴外部網路裝置即可通過網路直接與其他TSP交換資訊,提高了系統的並行處理能力和效率。
GroQ 支援多種用於模型推理的機器學習開發框架,包括 PyTorch、TensorFlow 和 OnnX,但不支援使用 LPU 推理引擎進行 ML 訓練。
至於 Groq 晶元的獨特性,據接近 Groq 的投資者 K Zeros 透露,在他的 X 平台賬戶中,LPU 的執行方式與 GPU 不同,使用時間指令集計算機架構,這與 GPU 使用的 SIMD(單指令、多資料)不同。 這種設計使晶元不必像 GPU 那樣頻繁地從 HBM 記憶體中過載資料。
Groq 晶元使用 SRAM,比 GPU 使用的記憶體快約 20 倍。 這也有助於避免HB的短缺並降低成本,因為HBM目前除了三星和海力士之外,還依賴台積電的COWOS技術,以及封裝。
更多資訊顯示,Groq晶元採用14nm工藝製造,配備230MB SRAM以確保記憶體頻寬,片上記憶體頻寬高達80TBS。 在算力方面,該晶元的整數(8位)執行速度為750TOPS,浮點(16位)執行速度為188Tflops。
震盪過後,不少行業大佬發現GroQ的價格有點高。
前 Facebook AI 科學家、阿里巴巴前技術副總裁賈陽青分析說,Groq LPU 的記憶體容量非常小(230MB)。 乙個簡單的計算表明,執行乙個 700 億引數模型需要 305 張 Groq 卡,相當於使用 8 個 NVIDIA H100。 從目前**的角度來看,這意味著在相同的吞吐量下,Groq LPU的硬體成本約為H100的40倍,能源成本約為H100的10倍。
晶元專家姚金鑫(J叔)在接受記者採訪時表示,從同等算力的角度來看,如果都用INT8進行推理,GROQ方案需要9個包含72塊的伺服器集群,如果是H100,大約需要2個8卡伺服器才能達到同樣的算力, 而此時的INT8算力已經達到了64P,可以同時部署的7B大模型數量已經達到了80餘個。從成本的角度來看,9臺Groq伺服器的成本遠高於2臺H100伺服器的成本。
在第三方**上,搭載GROQ晶元的加速卡售價超過2萬美元,差不多15萬元,比250,000-30,000 美元。 綜上所述,Groq 的架構是建立在小記憶體和大算力之上的,因此要處理的內容量有限,對應著極高的算力,從而產生了非常快的速度。 相反,GroQ 的極高速度是基於單張卡非常有限的吞吐量,為了確保與 H100 相同的吞吐量,需要更多的卡。
lpu有點專業
需要指出的是,目前 Groq 僅支援三種開源大型模型:Mixtral 8 7B-32K、Llama 2-70B-4K 和 Mistral 7B-8K,其中前兩個是開放使用並在其編譯器上執行的。
對此,張國斌表示:“任何AI演算法都可以使用NVIDIA的H100,但只有Mixtral和LLAMA 2可以使用GROQ的LPU。 如果乙個大型模型公司想要使用Groq的產品,首先需要確定要求和規格,然後進行功能驗證,最後生產的產品才能使用。 ”
張國斌指出,GROQ的LPU是大型機型專用晶元,所以速度快,效能正常。 “它更快,效率更高,而且節省電力更便宜。 未來應該有市場前景,比如支援大模型的那種智慧型孿生和可攜式終端。 他說。
不過,張國斌表示,他並不看好LPU,因為它的侷限性太大,只能在特定車型上使用。 “未來有可能支援更多的大型模型,但不如通用模型。 目前,我看到一些測試說它不夠準確。 張國斌用乙個比喻來解釋不準確,在乙個交通複雜的城市裡,LPU收集了大家早上上班的方向,然後用軟體決定了紅綠燈,關掉了一條路上所有的紅綠燈,讓所有同方向的車都在這條路上往前開。
它是一種ASIC晶元,只能應用於特定型號,通用性差,價效比不高,不值得大肆炒作,以免誤導晶元企業在人工智慧領域的發展方向。 張國斌還表示,人工智慧應該深入到千行百業,每個場景都有乙個ASIC,或者乙個通用GPU,其實它需要乙個可以多場景使用的人工智慧處理器。
Groq的商業模式是針對大型系統的,也針對企業部署,它不是單卡晶元。 因為它擁有從晶元到系統的整個技術棧,並且沒有中間商,所以它可以產生單位代幣的最大優勢。 在 2023 年底的一次採訪中,Ross 表示,鑑於 GPU 短缺和高成本,他相信 GroQ 未來的增長潛力:“在 12 個月內,我們可以部署 100,000 個 LPU,在 24 個月內,我們可以部署 100 萬個 LPU。”
一般與專用,誰更好? 必須讓子彈再飛一會兒。 不過,美國當地時間2月22日**,受最新財報超出預期的刺激,英偉達股價報報785$38, 上漲 164%,市值單日飆公升2733億美元(約合人民幣2萬億元),創下美股史上最大單日市值漲幅紀錄。
英偉達的市值一夜之間增長,相當於將整個Netflix或Adobe的市值加起來,或者接近摩根大通或兩家高盛市值的一半。 英偉達市值創歷史新高,接近2萬億美元,成為僅次於Microsoft和蘋果的全球第三高市值。
編輯:吳青 校對:閆景寧)。