Groq 的 LPU 將成為繼 NVIDIA GPU 之後的另乙個“新寵”？

作者：毛朔。

幾乎只要您按下傳送按鈕，大型模型就會以驚人的速度生成回覆。這一次，GROQ 模型以每秒 500 個代幣徹底顛覆了 GPT-4 的 40 Tok s 速度記錄！

Groq之所以“出圈”，是因為它的速度驚人，號稱是“史上最快的車型”！使其在大型模型圈中表現最好的響應速度來自驅動模型的新型AI晶元——LPU（語言處理單元）。

Groq 家族的 LPU “不走尋常路”。

LPU 旨在克服兩個大型語言模型（LLM）的瓶頸——計算密度和記憶體頻寬。與 GPU 和 CPU 相比，LPU 具有更強的計算能力來處理 LLM。這減少了計算每個單詞所需的時間，從而可以更快地生成文字序列。此外，消除外部儲存器瓶頸使 LPU 推理引擎能夠實現效能提公升乙個數量級。

與專為圖形渲染而設計的 GPU 不同，LPU 採用全新的架構，旨在為 AI 計算提供確定性效能。

GPU 使用 SIMD（單指令多資料），而 LPU 採用更線性的方法，避免了對複雜排程硬體的需求。這種設計允許有效地利用每個時鐘週期，確保一致的延遲和吞吐量。

簡單地說，如果 GPU 就像乙個精英運動隊，每個成員都擅長多工處理，但需要複雜的協調才能發揮最佳效能，那麼 LPU 就像乙個專案的專家團隊，每個人都在自己的專業領域以最直接的方式完成任務。

對於開發人員來說，這意味著效能可以精確**和優化，這在實時 AI 應用程式中至關重要。

在能源效率方面，LPU也顯示出其優勢。通過減少管理多個執行緒的開銷並避免核心利用效率低下，LPU 能夠以更低的功耗完成更多的計算任務。

GroQ 還允許多個 TSP 無縫連線，避免了 GPU 集群中常見的瓶頸，實現了極高的可擴充套件性。這意味著效能會隨著更多 LPU 的新增而線性擴充套件，從而簡化大規模 AI 模型的硬體要求，並使開發人員能夠更輕鬆地擴充套件其應用程式，而無需重新構建系統。

例如，如果將 GPU 群集視為由多個網橋連線的孤島，則網橋的容量會限制效能提公升，即使可以通過這些網橋訪問更多資源也是如此。另一方面，LPU就像一種新型的運輸系統，旨在通過允許多個處理單元無縫連線來避免傳統的瓶頸。這意味著效能會隨著更多 LPU 的新增而線性擴充套件，從而大大簡化了大規模 AI 模型的硬體要求，使開發人員能夠更輕鬆地擴充套件其應用程式，而無需重新構建整個系統。

閃電般的 Groq 更好嗎？

雖然LPU的創新令人瞠目結舌，但對於一般模型來說，好不好才是關鍵。

我們對 ChatGPT 和 Groq 有同樣的要求，但沒有進行第二次對話。

不管內容正確與否，單從語言風格的角度來看，從兩個模型給出的反饋中不難發現，GroQ的回覆有點生硬，有很強的“AI味”，而ChatGPT相對自然，對人類語言（中文）習慣有更透徹的“理解”。

然後我們問了幾乎相同的問題，他們的回答是這樣的：

GPT 的語言風格是徹底的“人類複雜性”，而 GROQ 仍然是“AI 風味”。

它可以取代 Nvidia 的 GPU 嗎？

在 GroQ 高速競速的同時，有乙個聲音——Nvidia 的 GPU 已經落後了嗎？

然而，速度並不是人工智慧發展的唯一決定性因素。在討論大型模型推理部署時，7b（70 億個引數）模型的例子非常有啟發性。

目前，部署這樣的模型大約需要 14GB 的記憶體。基於此，大約需要 70 個專用晶元，每個晶元對應乙個計算卡。如果採用通用配置，即一台4U伺服器有8個計算卡，那麼部署7B型號需要9臺4U伺服器，這幾乎填滿了乙個標準的伺服器機櫃。總共需要 72 個計算晶元，在 FP16 模式下，這種配置的計算能力達到了驚人的 13 個5p （petaflops）和 INT8 模式下高達 54p。

以英偉達的H100為例，它擁有80GB的高頻寬記憶體，可以同時執行五個7B型號。在FP16模式下，稀疏性優化的H100的算力接近2P，在INT8模式下，算力接近4P。

一位外地博主做了對比，結果顯示，在 INT8 模式下使用 Groq 進行推理的解決方案需要 9 臺伺服器。 9 臺 Groq 伺服器的成本遠高於 2 臺 H100 伺服器的成本。 Groq 解決方案的成本超過 160 萬美元，而 H100 伺服器的成本為 600,000 美元，這還不包括與機架相關的費用和電力成本。

對於較大的模型，例如 70b 引數模型，使用 INT8 模式可能需要至少 600 個計算卡，接近 80 臺伺服器，成本是天文數字。

事實上，對於 Groq 的架構來說，可能需要建立在小記憶體和大算力之上，這樣要處理的有限內容對應著非常高的算力，從而產生非常快的速度。

對於部署推理能力的大型模型，最具成本效益的仍然是 NVIDIA 的 GPU。

Groq 的 LPU 將成為繼 NVIDIA GPU 之後的另乙個“新寵”？

相關問題答案

2024年，USB C將成為歐盟電子裝置的通用標準

小公尺汽車必將成為市場上炙手可熱的黑馬

金融科技革命，誰將成為行業的顛覆者？

誰將成為新的征服者康？

在戰爭時期，這些省份將是勝利的關鍵！