CPU 和 GPU 的融合:現代計算的“8087 時刻”
過去,CPU 依靠外部數學協處理器來提高浮點效能。 今天,這一趨勢正在逆轉。 隨著 NVIDIA GH-200 處理器和 AMD Mi300A APU 的推出,GPU 已被整合到 CPU 架構中。
GPU 嵌入式處理器的興起。
GPU 以其強大的加速數學處理能力而聞名。 通過將 GPU 整合到 CPU 中,NVIDIA 和 AMD 在 HPC 效能方面取得了顯著改進。
吸收外部效能硬體。
這種融合標誌著計算領域的“8087時刻”,類似於早期的CPU吸收可選的數學協處理器。 它預示著一種未來趨勢,即外部效能硬體逐漸被CPU本身吸收。
再見PCI
GPU 到 CPU 記憶體連線瓶頸。
傳統上,Nvidia 和 AMD 的 GPU 通過 PCI 匯流排與 CPU 通訊。 由於 CPU 和 GPU 具有單獨的記憶體域,因此必須通過 PCI 介面在兩者之間移動資料,從而造成頻寬瓶頸。
NVIDIA Grace Hopper GH200 圖形處理器
NVIDIA 的 Grace Hopper GH200 GPU 通過 900 Gb 秒的 NVLink-C2C 連線解決了這一瓶頸,比傳統 PCIe 匯流排快約 14 倍。 此外,GH200 實現了單個 CPU-GPU 共享記憶體域,無需移動資料。
GH200 記憶體架構。
GH200 具有高達 480 GB 的 LPDDR5X CPU 記憶體和 96 GB 或 144 GB 的 HBM3 GPU 記憶體。 這些記憶體加起來為 576 GB 到 624 GB,並且在 CPU 和 GPU 之間完全可互操作。
amd instinct mi300a apu
AMD 的 Instinct Mi300A APU 還具有單個記憶體域,通過 Infinity Fabric 在 CPU 和 GPU 之間始終共享 128 GB 的 HBM3 記憶體。 該封裝的峰值吞吐量為 53 TB 秒。 雖然目前不支援外部儲存器擴充套件,但 CXL 將為未來的公升級提供潛力。
單個儲存域的好處。
GH200 和 MI300A 的單一儲存域消除了傳統方法中的 GPU 記憶體限制。 這對於高效能計算 (HPC) 和生成式人工智慧 (GenAI) 至關重要,它們需要在記憶體中載入大型模型並在 GPU 上執行它們。
統一記憶體擴充套件。
GH200 通過外部 NVLink 連線建立高達 20 TB 的統一記憶體,進一步突破了記憶體容量限制。
它離你的桌面不遠
從高階技術到低成本商品市場:向高效能計算的轉變。
高效能計算 (HPC) 正在經歷從昂貴的新技術向更經濟的商品市場的轉變。 乙個值得注意的變化是遷移到單個記憶體域,將所有元件從多核移動到高階記憶體,從高階裝置轉移到“移動”裝置。
gptshop.AI 的 GH200 工作站:適用於 HPC 和 GenAI 的低成本解決方案。
在 Linux 基準測試** Phronix 上,測試人員 Michael Larabel 在 GH200 工作站上執行了 HPC 基準測試。 系統使用 GPTshopAI 的 Grace Hopper 超級晶元,提供令人印象深刻的 576GB 記憶體、雙 2000+ W 電源和靈活的配置選項。
低雜訊、高功率:非常適合非資料中心環境。
GH200 的乙個獨特之處在於其 450W 至 1000W 的 TDP 可程式設計範圍(CPU + GPU + 記憶體),使其成為非資料中心環境的理想選擇。 此外,其預設風冷噪音僅為25分貝,提供安靜的執行體驗。 液體冷卻也是一種選擇。
經濟高效的單域記憶體解決方案。
雖然GH200不是低價產品,但考慮到目前的Nvidia H100 PCIe GPU在30,000到3之間,它的起價為47,500歐元(約合41,000美元)50,000 美元,加上主機系統的成本,使其成為乙個有吸引力的系統。
GPTshop 工作站提供 576GB 的單域記憶體,這對於需要大量 CPU-GPU 記憶體的 HPC 和 GenAI 使用者來說是乙個寶貴的優勢,大大超過了 H100 GPU 的 80GB 記憶體限制。
初步基準
借助 GPTshop,Phoronix 可以遠端執行多個基準測試。 基準應被視為初步結果,而不是最終業績評估。 這些測試僅適用於 CPU,不適用於 Hopper A100 GPU。 因此,基線圖不完整。 Phoronix 計畫在未來將測試擴充套件到基於 GPU 的應用程式。
基線環境使用 Ubuntu 2310、linux 6.5 和 gcc-13 作為標準編譯器。 為確保測試一致性,在類似的環境中測試了類似的處理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。 有關完整列表,請參閱 Phronix
遺憾的是,在基準測試執行期間無法獲得功耗資料。 根據 Phoronix 的說法,NVIDIA GH200 目前沒有在 Linux 上公開,帶有 Rapl PowerCap HWMON 介面,可用於讀取其功耗和能耗。 雖然系統 BMC 可以通過 Web 介面顯示整個系統的功耗,但無法通過 IPMI 訪問此資料。
儘管存在這些侷限性,但這項研究首次在 NVIDIA 以外的環境中為 GH200 提供了一些關鍵基準。
好 Ole HPCG
ARM GH200 效能。
在 HPCG 記憶體頻寬基準測試中,ARM GH200 以 42 Gflops 的效能脫穎而出,優於 Xeon Platinum 8380 2P (40 Gflops) 和 Ampere Altra Max (41 Gflops)。
GH200 在 NWCHEM 基準測試中也表現出色,72 核 ARM GH200 執行時間僅為 1404 秒,僅次於領先的 128 核 EPYC 9554(1323 秒)。
值得注意的是,72 核 Arm Grace CPU 的效能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。
未來功能
高階 CPU 整合到 GPU 架構中,以推動 AI 的發展。
NVIDIA GH200 和 AMD Mi300A 引入了新的處理器架構,將 GPU 整合到 CPU 中。 與過去吸收數學協處理器類似,這標誌著高階CPU開始吸收GPU並成為“專用”處理器。
Genai需求推動了**的下降。
儘管這些高階處理器目前價格昂貴,但對生成式人工智慧(GenAI)的巨大興趣可能會將它們推向商品價格點。 隨著更多基準的出現,這一趨勢將繼續下去。
個人高效能工作站的興起。
記憶體充足的個人高效能工作站的出現具有重要意義。 它們可以在辦公室執行大型語言模型 (LLM),並支援高記憶體、GPU 優化的高效能計算 (HPC) 應用程式等工作負載。
資料中心和雲仍然很重要,但個人工作站提供了乙個“重置按鈕”。
資料中心和雲仍然是計算的主力軍,但個人高效能工作站的出現提供了靈活性。 使用者可以在本地執行 LLMS 和 HPC 應用程式,而無需依賴雲或資料中心。
- 你對此有何看法? -
- 歡迎留言**並在評論區分享。 -