Groq 的 LPU 將成為繼 NVIDIA GPU 之後的另乙個“新寵”?

Mondo 科技 更新 2024-02-21

作者:毛朔。

幾乎只要您按下傳送按鈕,大型模型就會以驚人的速度生成回覆。 這一次,GROQ 模型以每秒 500 個代幣徹底顛覆了 GPT-4 的 40 Tok s 速度記錄!

Groq之所以“出圈”,是因為它的速度驚人,號稱是“史上最快的車型”! 使其在大型模型圈中表現最好的響應速度來自驅動模型的新型AI晶元——LPU(語言處理單元)。

Groq 家族的 LPU “不走尋常路”。

LPU 旨在克服兩個大型語言模型 (LLM) 的瓶頸——計算密度和記憶體頻寬。 與 GPU 和 CPU 相比,LPU 具有更強的計算能力來處理 LLM。 這減少了計算每個單詞所需的時間,從而可以更快地生成文字序列。 此外,消除外部儲存器瓶頸使 LPU 推理引擎能夠實現效能提公升乙個數量級。

與專為圖形渲染而設計的 GPU 不同,LPU 採用全新的架構,旨在為 AI 計算提供確定性效能。

GPU 使用 SIMD(單指令多資料),而 LPU 採用更線性的方法,避免了對複雜排程硬體的需求。 這種設計允許有效地利用每個時鐘週期,確保一致的延遲和吞吐量。

簡單地說,如果 GPU 就像乙個精英運動隊,每個成員都擅長多工處理,但需要複雜的協調才能發揮最佳效能,那麼 LPU 就像乙個專案的專家團隊,每個人都在自己的專業領域以最直接的方式完成任務。

對於開發人員來說,這意味著效能可以精確**和優化,這在實時 AI 應用程式中至關重要。

在能源效率方面,LPU也顯示出其優勢。 通過減少管理多個執行緒的開銷並避免核心利用效率低下,LPU 能夠以更低的功耗完成更多的計算任務。

GroQ 還允許多個 TSP 無縫連線,避免了 GPU 集群中常見的瓶頸,實現了極高的可擴充套件性。 這意味著效能會隨著更多 LPU 的新增而線性擴充套件,從而簡化大規模 AI 模型的硬體要求,並使開發人員能夠更輕鬆地擴充套件其應用程式,而無需重新構建系統。

例如,如果將 GPU 群集視為由多個網橋連線的孤島,則網橋的容量會限制效能提公升,即使可以通過這些網橋訪問更多資源也是如此。 另一方面,LPU就像一種新型的運輸系統,旨在通過允許多個處理單元無縫連線來避免傳統的瓶頸。 這意味著效能會隨著更多 LPU 的新增而線性擴充套件,從而大大簡化了大規模 AI 模型的硬體要求,使開發人員能夠更輕鬆地擴充套件其應用程式,而無需重新構建整個系統。

閃電般的 Groq 更好嗎?

雖然LPU的創新令人瞠目結舌,但對於一般模型來說,好不好才是關鍵。

我們對 ChatGPT 和 Groq 有同樣的要求,但沒有進行第二次對話。

不管內容正確與否,單從語言風格的角度來看,從兩個模型給出的反饋中不難發現,GroQ的回覆有點生硬,有很強的“AI味”,而ChatGPT相對自然,對人類語言(中文)習慣有更透徹的“理解”。

然後我們問了幾乎相同的問題,他們的回答是這樣的:

GPT 的語言風格是徹底的“人類複雜性”,而 GROQ 仍然是“AI 風味”。

它可以取代 Nvidia 的 GPU 嗎?

在 GroQ 高速競速的同時,有乙個聲音——Nvidia 的 GPU 已經落後了嗎?

然而,速度並不是人工智慧發展的唯一決定性因素。 在討論大型模型推理部署時,7b(70 億個引數)模型的例子非常有啟發性。

目前,部署這樣的模型大約需要 14GB 的記憶體。 基於此,大約需要 70 個專用晶元,每個晶元對應乙個計算卡。 如果採用通用配置,即一台4U伺服器有8個計算卡,那麼部署7B型號需要9臺4U伺服器,這幾乎填滿了乙個標準的伺服器機櫃。 總共需要 72 個計算晶元,在 FP16 模式下,這種配置的計算能力達到了驚人的 13 個5p (petaflops) 和 INT8 模式下高達 54p。

以英偉達的H100為例,它擁有80GB的高頻寬記憶體,可以同時執行五個7B型號。 在FP16模式下,稀疏性優化的H100的算力接近2P,在INT8模式下,算力接近4P。

一位外地博主做了對比,結果顯示,在 INT8 模式下使用 Groq 進行推理的解決方案需要 9 臺伺服器。 9 臺 Groq 伺服器的成本遠高於 2 臺 H100 伺服器的成本。 Groq 解決方案的成本超過 160 萬美元,而 H100 伺服器的成本為 600,000 美元,這還不包括與機架相關的費用和電力成本。

對於較大的模型,例如 70b 引數模型,使用 INT8 模式可能需要至少 600 個計算卡,接近 80 臺伺服器,成本是天文數字。

事實上,對於 Groq 的架構來說,可能需要建立在小記憶體和大算力之上,這樣要處理的有限內容對應著非常高的算力,從而產生非常快的速度。

對於部署推理能力的大型模型,最具成本效益的仍然是 NVIDIA 的 GPU。

相關問題答案

    2024年,USB C將成為歐盟電子裝置的通用標準

    歐盟委員會今天下午正式宣布,USB C將從年起成為歐盟電子裝置的通用標準。它旨在推動電子裝置充電領域的技術創新,並阻止市場 從年開始,所有手機 平板電腦 數位相機 耳機 耳機 可攜式音箱 掌上遊戲機 電子書閱讀器 耳塞 鍵盤 滑鼠 可攜式導航系統都將採用USB C 通用充電 溶液。而在年,膝上型電腦...

    小公尺汽車必將成為市場上炙手可熱的黑馬

    也就是說,小公尺汽車最近非常火爆,這個從手機到汽車轉型的新品牌,在整個汽車市場引起了轟動。今天就來聊聊,看看這輛小公尺車背後到底有什麼故事呢?當然,我們得先說說小公尺汽車的團隊。令你驚訝的是,這些人並不簡單。根據CNMO的報告,這些工程師在技術上是可靠的,有些人甚至願意為加入團隊而減薪。在短短的時間...

    金融科技革命,誰將成為行業的顛覆者?

    隨著資訊科技的飛速發展和金融業的逐步開放,金融科技已成為最受關注的領域之一。金融科技的出現給傳統金融行業帶來了前所未有的衝擊和變革,也給行業參與者帶來了巨大的機遇和挑戰。本文將重點關注金融科技革命的主題,以及誰將成為該行業的顛覆者。.傳統金融機構。傳統金融機構是金融行業老字型大小,擁有豐富的經驗和客...

    誰將成為新的征服者康?

    喬納森 梅傑斯被判有罪後,迪士尼只能選擇解約,而誰將成為新的征服者康今天也登上了各大平台的熱搜,根據各方訊息的總結,目前有幾位候選人可能接替梅傑斯擔任這個最重要的角色。第一位候選人是 星球大戰 續集三部曲的約翰 博耶加,表示,博耶加此前在 原力覺醒 首映式上穿過紫色連衣裙,表示很適合征服者康。而且從...

    在戰爭時期,這些省份將是勝利的關鍵!

    目前,中國的實力正在崛起,但國際社會對此持懷疑態度。在這種複雜多變的國際形勢下,如果發生戰爭,哪些省份將承擔重要任務已成為人們關注的問題。戰爭需要全方位支援,保障食物等基本生活物資尤為重要。因此,糧食主省黑龍江備受關注。即使戰爭爆發,在基本糧食安全方面還有很長的路要走。然而,許多國家對中國的成就仍然...