AMD最強AI晶元發布1 3倍效能NVIDIA H100！

當地時間12月7日，AMD於當地時間週三舉行“推進AI”發布會，正式推出面向AI和HPC的GPU產品Instinct Mi300A Mi300X加速器，與英偉達（NVIDIA）H100加速器直接競爭。同時，AMD還發布了最新一代的銳龍8000系列APU，代號為Hawk Point，用於AI PC產品。

MI300A：HPC 效能比 NVIDIA H4 高 100 倍

雖然在今年6月的“資料中心與人工智慧技術大會”上，AMD發布了MI300A和MI300X，但當時MI300X只是紙面發布，現在MI300A和MI300X已經開始量產，AMD也公布了更多關於MI300A和MI300X的效能資料。

AMD Mi300A 採用小晶元設計，內部多達 13 個小晶元，全部基於台積電的 5nm 或 6nm 工藝技術（CPU GPU 計算核心為 5nm，HBM 記憶體和 IO 為 6nm 等），其中許多是 3D 堆疊，形成乙個面積可控的單晶元封裝，總共有 1460 億個電晶體。

具體來說，Mi300A 與上一代 Mi250X 一脈相承，採用下一代 CDN3 GPU 架構，具有 228 個計算單元（14,592 個核心），並整合了 24 個 ZEN 4 CPU 核心和 128GB HBM3 記憶體。 Mi300A 的計算核心被 8 個 HBM3 記憶體包圍，單個 HBM3 的頻寬為 63GB S，8 個 16GB 堆疊組成 128GB 統一記憶體，最多 5 個3 tb/s。

在算力方面，Mi300A 提供高達 61 Tflops FP64 的算力和高達 122 Tflops FP32 的算力。

AMD 表示，Mi300A GPU 將 HPC 提公升到乙個新的水平，其效能是 NVIDIA H100 的四倍，能效是 NVIDIA H100 的兩倍。

具體來說，在 OpenFoam 中，MI300A APU 的效能比 H100 高出 4 倍，這主要是由於統一的記憶體布局、GPU 效能以及整體記憶體容量和頻寬。與 NVIDIA 的 Grace Hopper 超級晶元相比，該系統的每瓦效能提高了 2 倍。

AMD證實，目前正在出貨的MI300A也將用於為下一代El Capitan超級計算機提供動力，預計將提供高達2 Exaflops的計算能力。值得一提的是，AMD是唯一一家通過Frontier超級計算機打破1 Exaflop大關的公司，Frontier超級計算機是地球上最高效的系統。此外，惠普、Eviden、技嘉、美超微等也將成為MI300A加速器的OEM和解決方案合作夥伴。

MI300X：AI 效能比 NVIDIA H100 高 30%！

Mi300X 的設計比 Mi250X 更簡單，Mi250X 整合了 12 個小晶元，採用 5 6nm 工藝（HMB 和 IO 為 6nm）和 1530 億個電晶體，放棄了 APU 的 24 個 ZN4 核心和 IO 晶元，轉而採用具有更多計算核心的 CDNA 3 GPU。

每個基於 Mi300X cDNA 3 GPU 架構的 GCD 共有 40 個計算單元，相當於 2560 個核心。總共有八個計算晶元（GCD），因此總共有 320 個計算單元和 20,480 個核心單元。然而，對於當前的生產版本，AMD縮減了這些核心的一小部分，因此實際上總共有304個計算單元（每個GPU小晶元38個CU）可用於19,456個流處理器。

在記憶體頻寬方面，Mi300X 還配備了更大的 192GB HBM3 記憶體（8 個 HBM3 封裝，每個堆疊 12 個 Hi），比 Mi250X 高 50%，帶來多達 5 個2TBS 頻寬和 896GB s Infinity Fabric 頻寬。相比之下，英偉達即將推出的 H200 AI 加速器提供 141 GB 的容量，而英特爾即將推出的 Gaudi 3 將提供 144 GB 的容量。大記憶體池在LLM（大型語言模型）中非常重要，LLM大多是記憶體繫結的，AMD可以通過在HBM記憶體容量方面領先來提公升其AI能力。

具體來說，AMD 的 MI300X 與 NVIDIA 的 H100 加速器相比：

記憶體容量增加 24次。

記憶體頻寬增加 16 倍。

1.3 個 FP8 TFLOPS

1.3 個 fp16 TFLOPS

在 1v1 比較中，速度比 H20 （LLAMA 2 70B）快 100%。

在 1v1 比較中，速度比 H20 快 100 （FlashAttention 2）。

8v8 伺服器的速度比 H100 （LLAMA 2 70B）快 40%。

在 8v8 伺服器上，速度比 H100 （Bloom 176B）快 60%。

與 H100 相比，Mi300X 在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的效能提公升。

從平台的角度來看，將 8x Mi300X 解決方案與 8x H100 解決方案進行比較，前者在 Llama 2 70B 中獲得了 40% 的效能提公升，在 Bloom 176B 中獲得了 60% 的效能提公升。

AMD 指出，在 AI 訓練效能方面，MI300X 與競爭對手（H100）不相上下，並提供具有競爭力的**效能，同時在推理工作負載方面表現出色。

在功耗方面，AMD Mi300X 的額定功率為 750W，比 Mi250X 的 500W 高出 50%，比 NVIDIA H200 高出 50W。

rocm 6.0 開放軟體平台

AMD還推出了ROCM 60 開放軟體平台，此最新版本具有強大的新功能，包括支援各種 AI 工作負載，例如生成式 AI 和大型語言模型。

新的軟體堆疊支援最新的計算格式，如 FP16、BF16 和 FP8（包括 SPARSITY）。

這些優化相結合，可將 VLLM 的速度提高多達 2 個Hip Graph 速度提高 6 倍、1 倍，執行時間優化4 倍和 1 倍的 Flash 注意力，優化的核心3次。

AMD 指出，與上一代硬體和軟體組合相比，執行 Llama 2 70B 文字生成的 Mi300X 和 RoCM 6 的 AI 推理速度提高了約 8 倍。

ROCM 6 預計將於本月晚些時候與 mi300 AI 加速器一起推出。看看 ROCM 6 與其真正的競爭對手 NVIDIA CUDA 堆疊的最新版本相比如何，這將是一件有趣的事情。

G593-ZX1 ZX2系列伺服器

AMD還展示了技嘉G593-ZX1 ZX2系列伺服器的配置，該伺服器提供多達8個Mi300x GPU加速器和2個AMD EPYC 9004 CPU。這些系統將配備多達 8 個 3000W 電源，總功率為 18000W。

據介紹，整合了8個MI300X GPU的加速器平台，與NVIDIA HGX H100平台相比，帶來的改進包括：

2.4 倍高的 HBM3 記憶體（15 tb vs. 640 gb）

1.計算出的翻牌次數增加 3 倍（104 pf vs. 7.9 pf）

相似的雙向頻寬（896 GB s vs..） 900 gb/s）

類似的單節點環形頻寬（448 GB s vs 450 gb/s）

類似的網路功能（400 GbE 與 400 GbE。 400 gbe）

類似的 PCIe 協議（PCIe Gen 5 128 GB s）。

據SemiAnalysis報道，Microsoft、Meta、甲骨文、谷歌、Supermicro Qunta-Direct、亞馬遜等公司已向AMD下達了不同數量的MI300系列訂單。

今天，Microsoft還宣布將評估AMD人工智慧加速器產品的需求，並評估採用新產品的可行性。 Meta 還宣布將在資料中心採用 AMD 的全新 Mi300X 晶元產品。甲骨文還表示，該公司將在雲服務中使用AMD的**晶元。

此前，市場預計AMD的MI300系列將在2024年出貨約3040萬台，最大的客戶是Microsoft和谷歌。

值得注意的是，在最近的財報電話會議上，AMD首席執行官蘇姿丰表示，“基於我們在AI路線圖執行和雲客戶購買承諾方面取得的快速進展，隨著全年收入的增長，預計第四季度資料中心GPU收入將達到約4億美元，2024年將超過20億美元。這一增長將使MI300系列成為AMD歷史上銷售額增長最快的產品。

目前，在生成式AI的熱潮下，英偉達憑藉其AI晶元的卓越效能和CUDA的生態優勢，在雲AI晶元市場佔據壟斷優勢。然而，由於英偉達AI晶元成本高昂且短缺，雲服務和AI技術廠商在成本和多元化鏈安全方面存在考慮，這也給了AMD和英特爾等競爭對手更多的機會。

編輯：新知勳-流氓劍。

AMD最強AI晶元發布1 3倍效能NVIDIA H100！

相關問題答案

AMD發布了自己最強的AI晶元，效能碾壓H100，不應該在國內推出

算力領域AMD新款AI晶元即將發布，官方媒體紛紛表示，將讓算力隨時使用。

如果國產晶元再次突破，就不用擔心AMD和NVIDIA了，把CPU之外的動力解放出來

谷歌最強AI模型Gemini正式發布了三個版本的多模態

英特爾與AMD晶元爭議英特爾新機型廣告對比

AMD最強AI晶元發布1 3倍效能NVIDIA H100！

相關問題答案

AMD發布了自己最強的AI晶元，效能碾壓H100，不應該在國內推出

算力領域AMD新款AI晶元即將發布，官方媒體紛紛表示，將讓算力隨時使用。

如果國產晶元再次突破，就不用擔心AMD和NVIDIA了，把CPU之外的動力解放出來

谷歌最強AI模型Gemini正式發布了三個版本的多模態

英特爾與AMD晶元爭議 英特爾新機型廣告對比

英特爾與AMD晶元爭議英特爾新機型廣告對比