AI晶元黑馬，能“碾壓”英偉達嗎？

近日，“史上最快大模型”爆火。海外AI晶元創業公司Groq利用自研LPU（語言處理單元）作為推理晶元，讓大型模型以接近每秒500個代幣（文字的最小單位）的速度生成，碾壓GPT-3每秒 5 個令牌 40。

這意味著大模型處理請求得到響應所需的時間大大減少，有網友喊“它響應得比我眨眼還快”; 一些人認為 GROQ 的 LPU 可能是 Nvidia GPU 晶元的有力替代品; 甚至有一種自稱**的說法是，Nvidia 被 GROQ 的 LPU “壓垮”了。

但隨後一些行業專家質疑GROQ LPU的成本效益和競爭力，並否認它可能會影響NVIDIA。計算顯示，Groq LPU的硬體成本約為Nvidia H100 GPU的40倍，能源成本約為Nvidia H100 GPU的10倍。

Groq 多年來一直致力於顛覆 GPU 和 CPU 等傳統架構。

根據 GroQ 的官方網站，LPU 代表語言處理單元，這是一種新型的端到端處理單元系統，可為具有順序元件的計算密集型應用程式提供最快的推理，例如大型語言模型 LLM。

簡化 LPU 架構。

Groq官方網站。

至於為什麼 LPU 在用於 LLM 和生成式 AI 時比 GPU 快得多，GroQ 的官方網站解釋說，LPU 旨在克服 LLM 的兩個瓶頸：計算密度和記憶體頻寬。對於 LLM，LPU 的計算能力大於 GPU 和 CPU，並且通過減少計算每個單詞所需的時間，可以更快地生成文字序列。此外，通過消除外部記憶體瓶頸，LPU 推理引擎可以在 LLM 上提供比 GPU 高幾個數量級的效能。 Groq成立於2016年。早在2021年，外界就稱Groq為“英偉達最強挑戰者”。 2021年，Groq獲得3億美元融資，由Tiger Global Management**和D1 Capital領投，總融資額為367億美元。

2023 年 8 月，Groq 推出了 Groq LPU，它可以以每秒超過 100 個代幣的創紀錄速度執行具有 700 億個引數的企業級語言模型。 Groq 估計，與其他系統相比，它的速度優勢是 10 到 100 倍。

GroQ創始人兼首席執行官喬納森·羅斯（Jonathan Ross）表示：“人工智慧受到現有系統的限制，其中許多系統正在被新進入者所遵循或逐步改進。無論你在這個問題上投入多少錢，GPU 和 CPU 等傳統架構都難以跟上對 AI 和機器學習日益增長的需求......我們的使命更具顛覆性：Groq 尋求通過將計算成本降低到零來釋放 AI 的潛力。 “專家們質疑Groq LPU的成本效益和競爭力。

清華大學積體電路學院副教授何胡表示，LPU屬於推理晶元，目前供不應求、主要用於大模型訓練的GPU晶元不能算是同一條賽道。從推理晶元軌道來看，LPU目前可能已經達到了高效能，但執行成本並不低。高效能、低成本的推理晶元可以降低推理成本，拓寬AI大模型的應用範圍。其市場前景主要取決於市場選擇的推理需求，不涉及太多的技術競爭。

顧名思義，訓練晶元主要用於訓練大型模型，而推理晶元主要用於AI應用。業內人士認為，隨著垂直大模型在各行各業的迎來，AI大模型應用的逐步落地，用於推理的算力將與訓練算力一樣受到重視。

然而，即使是推理，一些專家也會根據 LPU 和 GPU 的記憶體容量以及大型模型進行吞吐量計算，LPU 在價效比和能效方面都無法與 NVIDIA 的 GPU 競爭。

Facebook前AI科學家、阿里巴巴前技術副總裁賈揚青在海外社交平台發布分析稱，Groq LPU的記憶體容量非常小（230MB）。乙個簡單的計算表明，執行乙個 700 億引數模型需要 305 張 Groq 卡，相當於使用 8 個 NVIDIA H100。從目前**的角度來看，這意味著在相同的吞吐量下，Groq LPU的硬體成本約為H100的40倍，能源成本約為H100的10倍。國內某龍頭AI晶元公司的負責人也對上述計算結果表示贊同。他認為，與使用HBM（高頻寬記憶體）的GPU不同，LPU使用SRAM（靜態隨機存取儲存器）作為儲存，這意味著必須堆疊許多卡才能執行大型模型。

騰訊科技晶元專家姚金鑫直言不諱地表示：“英偉達在這場AI浪潮中的絕對領先地位，讓世界對挑戰者充滿期待。每一篇文章引起關注，一開始總會被相信，除了這個原因之外，也是因為做比較時的“套路”，刻意忽略其他因素，用單一維度來做比較。 ”

AI晶元黑馬，能“碾壓”英偉達嗎？

相關問題答案

AI晶元領域出現一匹黑馬，極速碾壓英偉達，創始人成本為零

英偉達推出GPU晶元改進版，黑馬公司迎來曙光

在英偉達宣布華為的AI晶元構成挑戰後，出現了乙個奇怪的現象

AMD正式發布AI晶元，英偉達應該緊張

英偉達有些恐慌，華為AI晶元崛起，百億美元市場岌岌可危