作者:毛朔。
幾乎只要您按下傳送按鈕,大型模型就會以驚人的速度生成回覆。 這一次,GROQ 模型以每秒 500 個代幣徹底顛覆了 GPT-4 的 40 Tok s 速度記錄!
Groq之所以“出圈”,是因為它的速度驚人,號稱是“史上最快的車型”! 使其在大型模型圈中表現最好的響應速度來自驅動模型的新型AI晶元——LPU(語言處理單元)。
Groq 家族的 LPU “不走尋常路”。
LPU 旨在克服兩個大型語言模型 (LLM) 的瓶頸——計算密度和記憶體頻寬。 與 GPU 和 CPU 相比,LPU 具有更強的計算能力來處理 LLM。 這減少了計算每個單詞所需的時間,從而可以更快地生成文字序列。 此外,消除外部儲存器瓶頸使 LPU 推理引擎能夠實現效能提公升乙個數量級。
與專為圖形渲染而設計的 GPU 不同,LPU 採用全新的架構,旨在為 AI 計算提供確定性效能。
GPU 使用 SIMD(單指令多資料),而 LPU 採用更線性的方法,避免了對複雜排程硬體的需求。 這種設計允許有效地利用每個時鐘週期,確保一致的延遲和吞吐量。
簡單地說,如果 GPU 就像乙個精英運動隊,每個成員都擅長多工處理,但需要複雜的協調才能發揮最佳效能,那麼 LPU 就像乙個專案的專家團隊,每個人都在自己的專業領域以最直接的方式完成任務。
對於開發人員來說,這意味著效能可以精確**和優化,這在實時 AI 應用程式中至關重要。
在能源效率方面,LPU也顯示出其優勢。 通過減少管理多個執行緒的開銷並避免核心利用效率低下,LPU 能夠以更低的功耗完成更多的計算任務。
GroQ 還允許多個 TSP 無縫連線,避免了 GPU 集群中常見的瓶頸,實現了極高的可擴充套件性。 這意味著效能會隨著更多 LPU 的新增而線性擴充套件,從而簡化大規模 AI 模型的硬體要求,並使開發人員能夠更輕鬆地擴充套件其應用程式,而無需重新構建系統。
例如,如果將 GPU 群集視為由多個網橋連線的孤島,則網橋的容量會限制效能提公升,即使可以通過這些網橋訪問更多資源也是如此。 另一方面,LPU就像一種新型的運輸系統,旨在通過允許多個處理單元無縫連線來避免傳統的瓶頸。 這意味著效能會隨著更多 LPU 的新增而線性擴充套件,從而大大簡化了大規模 AI 模型的硬體要求,使開發人員能夠更輕鬆地擴充套件其應用程式,而無需重新構建整個系統。
閃電般的 Groq 更好嗎?
雖然LPU的創新令人瞠目結舌,但對於一般模型來說,好不好才是關鍵。
我們對 ChatGPT 和 Groq 有同樣的要求,但沒有進行第二次對話。
不管內容正確與否,單從語言風格的角度來看,從兩個模型給出的反饋中不難發現,GroQ的回覆有點生硬,有很強的“AI味”,而ChatGPT相對自然,對人類語言(中文)習慣有更透徹的“理解”。
然後我們問了幾乎相同的問題,他們的回答是這樣的:
GPT 的語言風格是徹底的“人類複雜性”,而 GROQ 仍然是“AI 風味”。
它可以取代 Nvidia 的 GPU 嗎?
在 GroQ 高速競速的同時,有乙個聲音——Nvidia 的 GPU 已經落後了嗎?
然而,速度並不是人工智慧發展的唯一決定性因素。 在討論大型模型推理部署時,7b(70 億個引數)模型的例子非常有啟發性。
目前,部署這樣的模型大約需要 14GB 的記憶體。 基於此,大約需要 70 個專用晶元,每個晶元對應乙個計算卡。 如果採用通用配置,即一台4U伺服器有8個計算卡,那麼部署7B型號需要9臺4U伺服器,這幾乎填滿了乙個標準的伺服器機櫃。 總共需要 72 個計算晶元,在 FP16 模式下,這種配置的計算能力達到了驚人的 13 個5p (petaflops) 和 INT8 模式下高達 54p。
以英偉達的H100為例,它擁有80GB的高頻寬記憶體,可以同時執行五個7B型號。 在FP16模式下,稀疏性優化的H100的算力接近2P,在INT8模式下,算力接近4P。
一位外地博主做了對比,結果顯示,在 INT8 模式下使用 Groq 進行推理的解決方案需要 9 臺伺服器。 9 臺 Groq 伺服器的成本遠高於 2 臺 H100 伺服器的成本。 Groq 解決方案的成本超過 160 萬美元,而 H100 伺服器的成本為 600,000 美元,這還不包括與機架相關的費用和電力成本。
對於較大的模型,例如 70b 引數模型,使用 INT8 模式可能需要至少 600 個計算卡,接近 80 臺伺服器,成本是天文數字。
事實上,對於 Groq 的架構來說,可能需要建立在小記憶體和大算力之上,這樣要處理的有限內容對應著非常高的算力,從而產生非常快的速度。
對於部署推理能力的大型模型,最具成本效益的仍然是 NVIDIA 的 GPU。