近日,“史上最快大模型”爆火。 海外AI晶元創業公司Groq利用自研LPU(語言處理單元)作為推理晶元,讓大型模型以接近每秒500個代幣(文字的最小單位)的速度生成,碾壓GPT-3每秒 5 個令牌 40。
這意味著大模型處理請求得到響應所需的時間大大減少,有網友喊“它響應得比我眨眼還快”; 一些人認為 GROQ 的 LPU 可能是 Nvidia GPU 晶元的有力替代品; 甚至有一種自稱**的說法是,Nvidia 被 GROQ 的 LPU “壓垮”了。
但隨後一些行業專家質疑GROQ LPU的成本效益和競爭力,並否認它可能會影響NVIDIA。 計算顯示,Groq LPU的硬體成本約為Nvidia H100 GPU的40倍,能源成本約為Nvidia H100 GPU的10倍。
Groq 多年來一直致力於顛覆 GPU 和 CPU 等傳統架構。
根據 GroQ 的官方網站,LPU 代表語言處理單元,這是一種新型的端到端處理單元系統,可為具有順序元件的計算密集型應用程式提供最快的推理,例如大型語言模型 LLM。
簡化 LPU 架構。
Groq官方網站。
至於為什麼 LPU 在用於 LLM 和生成式 AI 時比 GPU 快得多,GroQ 的官方網站解釋說,LPU 旨在克服 LLM 的兩個瓶頸:計算密度和記憶體頻寬。 對於 LLM,LPU 的計算能力大於 GPU 和 CPU,並且通過減少計算每個單詞所需的時間,可以更快地生成文字序列。 此外,通過消除外部記憶體瓶頸,LPU 推理引擎可以在 LLM 上提供比 GPU 高幾個數量級的效能。 Groq成立於2016年。 早在2021年,外界就稱Groq為“英偉達最強挑戰者”。 2021年,Groq獲得3億美元融資,由Tiger Global Management**和D1 Capital領投,總融資額為367億美元。
2023 年 8 月,Groq 推出了 Groq LPU,它可以以每秒超過 100 個代幣的創紀錄速度執行具有 700 億個引數的企業級語言模型。 Groq 估計,與其他系統相比,它的速度優勢是 10 到 100 倍。
GroQ創始人兼首席執行官喬納森·羅斯(Jonathan Ross)表示:“人工智慧受到現有系統的限制,其中許多系統正在被新進入者所遵循或逐步改進。 無論你在這個問題上投入多少錢,GPU 和 CPU 等傳統架構都難以跟上對 AI 和機器學習日益增長的需求......我們的使命更具顛覆性:Groq 尋求通過將計算成本降低到零來釋放 AI 的潛力。 “專家們質疑Groq LPU的成本效益和競爭力。
清華大學積體電路學院副教授何胡表示,LPU屬於推理晶元,目前供不應求、主要用於大模型訓練的GPU晶元不能算是同一條賽道。 從推理晶元軌道來看,LPU目前可能已經達到了高效能,但執行成本並不低。 高效能、低成本的推理晶元可以降低推理成本,拓寬AI大模型的應用範圍。 其市場前景主要取決於市場選擇的推理需求,不涉及太多的技術競爭。
顧名思義,訓練晶元主要用於訓練大型模型,而推理晶元主要用於AI應用。 業內人士認為,隨著垂直大模型在各行各業的迎來,AI大模型應用的逐步落地,用於推理的算力將與訓練算力一樣受到重視。
然而,即使是推理,一些專家也會根據 LPU 和 GPU 的記憶體容量以及大型模型進行吞吐量計算,LPU 在價效比和能效方面都無法與 NVIDIA 的 GPU 競爭。
Facebook前AI科學家、阿里巴巴前技術副總裁賈揚青在海外社交平台發布分析稱,Groq LPU的記憶體容量非常小(230MB)。 乙個簡單的計算表明,執行乙個 700 億引數模型需要 305 張 Groq 卡,相當於使用 8 個 NVIDIA H100。 從目前**的角度來看,這意味著在相同的吞吐量下,Groq LPU的硬體成本約為H100的40倍,能源成本約為H100的10倍。 國內某龍頭AI晶元公司的負責人也對上述計算結果表示贊同。 他認為,與使用HBM(高頻寬記憶體)的GPU不同,LPU使用SRAM(靜態隨機存取儲存器)作為儲存,這意味著必須堆疊許多卡才能執行大型模型。
騰訊科技晶元專家姚金鑫直言不諱地表示:“英偉達在這場AI浪潮中的絕對領先地位,讓世界對挑戰者充滿期待。 每一篇文章引起關注,一開始總會被相信,除了這個原因之外,也是因為做比較時的“套路”,刻意忽略其他因素,用單一維度來做比較。 ”