使用NVIDIA和AMD的新晶元突破PCIe的束縛,解鎖超高速傳輸

Mondo 科技 更新 2024-03-03

CPU 和 GPU 的融合:現代計算的“8087 時刻”

過去,CPU 依靠外部數學協處理器來提高浮點效能。 今天,這一趨勢正在逆轉。 隨著 NVIDIA GH-200 處理器和 AMD Mi300A APU 的推出,GPU 已被整合到 CPU 架構中。

GPU 嵌入式處理器的興起。

GPU 以其強大的加速數學處理能力而聞名。 通過將 GPU 整合到 CPU 中,NVIDIA 和 AMD 在 HPC 效能方面取得了顯著改進。

吸收外部效能硬體。

這種融合標誌著計算領域的“8087時刻”,類似於早期的CPU吸收可選的數學協處理器。 它預示著一種未來趨勢,即外部效能硬體逐漸被CPU本身吸收。

再見PCI

GPU 到 CPU 記憶體連線瓶頸。

傳統上,Nvidia 和 AMD 的 GPU 通過 PCI 匯流排與 CPU 通訊。 由於 CPU 和 GPU 具有單獨的記憶體域,因此必須通過 PCI 介面在兩者之間移動資料,從而造成頻寬瓶頸。

NVIDIA Grace Hopper GH200 圖形處理器

NVIDIA 的 Grace Hopper GH200 GPU 通過 900 Gb 秒的 NVLink-C2C 連線解決了這一瓶頸,比傳統 PCIe 匯流排快約 14 倍。 此外,GH200 實現了單個 CPU-GPU 共享記憶體域,無需移動資料。

GH200 記憶體架構。

GH200 具有高達 480 GB 的 LPDDR5X CPU 記憶體和 96 GB 或 144 GB 的 HBM3 GPU 記憶體。 這些記憶體加起來為 576 GB 到 624 GB,並且在 CPU 和 GPU 之間完全可互操作。

amd instinct mi300a apu

AMD 的 Instinct Mi300A APU 還具有單個記憶體域,通過 Infinity Fabric 在 CPU 和 GPU 之間始終共享 128 GB 的 HBM3 記憶體。 該封裝的峰值吞吐量為 53 TB 秒。 雖然目前不支援外部儲存器擴充套件,但 CXL 將為未來的公升級提供潛力。

單個儲存域的好處。

GH200 和 MI300A 的單一儲存域消除了傳統方法中的 GPU 記憶體限制。 這對於高效能計算 (HPC) 和生成式人工智慧 (GenAI) 至關重要,它們需要在記憶體中載入大型模型並在 GPU 上執行它們。

統一記憶體擴充套件。

GH200 通過外部 NVLink 連線建立高達 20 TB 的統一記憶體,進一步突破了記憶體容量限制。

它離你的桌面不遠

從高階技術到低成本商品市場:向高效能計算的轉變。

高效能計算 (HPC) 正在經歷從昂貴的新技術向更經濟的商品市場的轉變。 乙個值得注意的變化是遷移到單個記憶體域,將所有元件從多核移動到高階記憶體,從高階裝置轉移到“移動”裝置。

gptshop.AI 的 GH200 工作站:適用於 HPC 和 GenAI 的低成本解決方案。

在 Linux 基準測試** Phronix 上,測試人員 Michael Larabel 在 GH200 工作站上執行了 HPC 基準測試。 系統使用 GPTshopAI 的 Grace Hopper 超級晶元,提供令人印象深刻的 576GB 記憶體、雙 2000+ W 電源和靈活的配置選項。

低雜訊、高功率:非常適合非資料中心環境。

GH200 的乙個獨特之處在於其 450W 至 1000W 的 TDP 可程式設計範圍(CPU + GPU + 記憶體),使其成為非資料中心環境的理想選擇。 此外,其預設風冷噪音僅為25分貝,提供安靜的執行體驗。 液體冷卻也是一種選擇。

經濟高效的單域記憶體解決方案。

雖然GH200不是低價產品,但考慮到目前的Nvidia H100 PCIe GPU在30,000到3之間,它的起價為47,500歐元(約合41,000美元)50,000 美元,加上主機系統的成本,使其成為乙個有吸引力的系統。

GPTshop 工作站提供 576GB 的單域記憶體,這對於需要大量 CPU-GPU 記憶體的 HPC 和 GenAI 使用者來說是乙個寶貴的優勢,大大超過了 H100 GPU 的 80GB 記憶體限制。

初步基準

借助 GPTshop,Phoronix 可以遠端執行多個基準測試。 基準應被視為初步結果,而不是最終業績評估。 這些測試僅適用於 CPU,不適用於 Hopper A100 GPU。 因此,基線圖不完整。 Phoronix 計畫在未來將測試擴充套件到基於 GPU 的應用程式。

基線環境使用 Ubuntu 2310、linux 6.5 和 gcc-13 作為標準編譯器。 為確保測試一致性,在類似的環境中測試了類似的處理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。 有關完整列表,請參閱 Phronix

遺憾的是,在基準測試執行期間無法獲得功耗資料。 根據 Phoronix 的說法,NVIDIA GH200 目前沒有在 Linux 上公開,帶有 Rapl PowerCap HWMON 介面,可用於讀取其功耗和能耗。 雖然系統 BMC 可以通過 Web 介面顯示整個系統的功耗,但無法通過 IPMI 訪問此資料。

儘管存在這些侷限性,但這項研究首次在 NVIDIA 以外的環境中為 GH200 提供了一些關鍵基準。

好 Ole HPCG

ARM GH200 效能。

在 HPCG 記憶體頻寬基準測試中,ARM GH200 以 42 Gflops 的效能脫穎而出,優於 Xeon Platinum 8380 2P (40 Gflops) 和 Ampere Altra Max (41 Gflops)。

GH200 在 NWCHEM 基準測試中也表現出色,72 核 ARM GH200 執行時間僅為 1404 秒,僅次於領先的 128 核 EPYC 9554(1323 秒)。

值得注意的是,72 核 Arm Grace CPU 的效能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。

未來功能

高階 CPU 整合到 GPU 架構中,以推動 AI 的發展。

NVIDIA GH200 和 AMD Mi300A 引入了新的處理器架構,將 GPU 整合到 CPU 中。 與過去吸收數學協處理器類似,這標誌著高階CPU開始吸收GPU並成為“專用”處理器。

Genai需求推動了**的下降。

儘管這些高階處理器目前價格昂貴,但對生成式人工智慧(GenAI)的巨大興趣可能會將它們推向商品價格點。 隨著更多基準的出現,這一趨勢將繼續下去。

個人高效能工作站的興起。

記憶體充足的個人高效能工作站的出現具有重要意義。 它們可以在辦公室執行大型語言模型 (LLM),並支援高記憶體、GPU 優化的高效能計算 (HPC) 應用程式等工作負載。

資料中心和雲仍然很重要,但個人工作站提供了乙個“重置按鈕”。

資料中心和雲仍然是計算的主力軍,但個人高效能工作站的出現提供了靈活性。 使用者可以在本地執行 LLMS 和 HPC 應用程式,而無需依賴雲或資料中心。

- 你對此有何看法? -

- 歡迎留言**並在評論區分享。 -

相關問題答案

    突破自我,打破生活的桎梏

    敢於突破 開啟無限可能的生活。有時,我們認為自己已經到了能力的極限,無法實現更多的創新和突破。然而,情況往往並非如此。很多時候,我們之所以無法取得更多成就,是因為缺乏走出去的勇氣,給自己的生活設限,徒勞地錯過了更多的可能性。開始生活永遠不會太晚。很多時候,我們總是在等待乙個完美的時刻,乙個恰到好處的...

    如果國產晶元再次突破,就不用擔心AMD和NVIDIA了,把CPU之外的動力解放出來

    如果再次突破國產晶元,就不用擔心AMD和英偉達了,把CPU之外的動力解放出來。近日,摩爾光纖在北京推出了圖形處理器,這一領域曾被AMD 英偉達 英特爾等美國公司壟斷,如今正被中國企業進入,對中國半導體產業具有重要意義。資料顯示,佔全球GPU市場 以上的英特爾憑藉在PC晶元領域的領先地位和在晶元領域的...

    美國霸權被打破了!伊朗和委內瑞拉聯手挑戰全球巨頭

    美國,是超級大國還是紙老虎?最近,伊朗海軍的行動再次引起人們的關注。伊朗的 薩漢德 號和 馬克蘭 號 突破了美國的封鎖,成功進入大西洋,引起了國際社會的廣泛關注。這是一場政治秀,還是對美國霸權的真正挑戰?伊朗和委內瑞拉 團結起來反對霸權的兄弟。美國一直把伊朗和委內瑞拉視為秉持其霸權的物件。在美國的制...

    自尊和自信的挑戰和突破 建立積極自尊的必要性

    自尊和自信是每個人在生活和工作中不可或缺的品質。然而,我們經常會遇到各種挑戰和困難,導致我們的自尊和自信受到打擊。面對這些挑戰,我們如何應對並克服它們以建立積極的自尊?首先,我們需要認識到自尊和自信的重要性。自尊是乙個人對自己的價值和能力的評價,而自信是相信自己可以成功完成任務或應對某種情況。自尊心...

    振興新突破,保持奮鬥姿態,鞏固和增強經濟復甦積極態勢

    保持奮鬥姿態,鞏固和增強經濟復甦的積極態勢 關於貫徹落實省委經濟工作會議精神 剛剛閉幕的省委經濟工作會議總結了今年經濟工作,認為全面振興新突破三年行動第一年的主要目標任務有望圓滿完成,這是鼓舞士氣 鼓舞人心的重大喜訊。偉大的工作必須有結果,奮鬥才會得到回報。年回顧遼寧攜手走過了一段不平凡的征程。省委...