H100最強競品正式發布！推理速度提高 1 6 倍，配備 AMD 高達 192GB 的記憶體

來自凹面非寺廟量子位元的豐富色彩 | qbitai

這一晚，AI技術圈熱鬧非凡：

谷歌搬出了“蓄謀已久”的大殺手雙子座，聲稱要直接推翻GPT-4;

另一方面，晶元製造商AMD再也忍無可忍，正式發布了Instinct MI300X GPU，直接與Nvidia H100進行基準測試。

Instinct Mi300X 是 AMD 有史以來最大的晶元

擁有 1530 億個電晶體，AI 任務推理效能比 H100 快 1.16倍，記憶體容量為192GB，是H100（24x）。

它的出現無疑為該行業提供了具有競爭力的第二選擇。

訊息稱，Microsoft、Meta、OpenAI和甲骨文等公司已率先承諾購買AMD的GPU以取代H100。

AI加速晶元市場開始發生變化了嗎？

推理效能比 H100 HGX 快 1%6 倍，多達 2900 億個引數。

AMD在6月份預覽了這款晶元，今天是正式發布，公布了引數等細節。

據介紹，Instinct Mi300X由AMD採用有史以來最先進的製作技術打造，是小晶元設計方法的“代表作”。

它下面是 4 個 6nm IO 晶元，頂部融合了 8 個 HBM3 記憶體（12Hi 堆疊）和 8 個 5nm cDNA 3 GPU 小晶元（3D 堆疊）。

其中，3D堆疊GPU和I-O晶元通過“3用於連線的 5D“ 封裝技術。

最終產品功耗為 750W，包含 304 個計算單元，53TBS 頻寬和高達 192GB 的 HBM3 記憶體（而 H100 只有 80GB）。

在現實世界的生成式 AI 平台應用中，Mi300X 被設計為一組 8 個，通過 Infinity Fabri 互連，GPU 之間的吞吐量為 896 GB S。

同時，此組合的記憶體總量達到 15TB HBM3（H640 為 100GB）提供多達 10 個4 Petaflops 的計算效能（BF16 FP16）。

與NVIDIA的H100 HGX平台（BF16 FP16）相比，記憶體總量增加了24 倍，計算能力增加 13次。

同時，AMD還為Mi300X配備了400GbE網路，支援多種網絡卡，比NVIDIA有更多的選擇。

以下是AMD分享的官方效能測試結果（理性參考）。

首先，對於 HPC 工作負載，MI300X 的 FP64 和 FP32 向量矩陣的理論峰值吞吐量為 H2 的 1004次;對於 AI 工作負載，TF32、FP16、BF16、FP8 和 INT8 的理論峰值吞吐量為 H100 的 13次。

請注意，這些**都不包含稀疏性（儘管 mi300x 確實支援它）。

其次，在AI推理任務中，AMD以1760億引數Flash Attention 2為例，聲稱MI300X在吞吐量（tokens S）方面比H100多1。同時，在 700 億引數 LLAMA 2 上，聊天延遲慢 6 倍，比 H1 快 100 倍4 倍（基於 128 個令牌工作負載的 2k 序列長度）。

不得不說，MI300X的大記憶體容量和頻寬確實給它帶來了這個很大的優勢。

相比之下，Mi300X 在 300 億引數 MPT 上的效能在訓練任務方面與 H100 HGX 大致相同。

所以總的來說，MI300X的優勢更多在於推理。

此外，需要強調的是，Mi300X由於記憶體容量更大，可以容納300億引數訓練模型和700億引數推理模型，是H100的兩倍。

而MI300X可以支援高達700億次訓練和2900億個引數的推理模型，是H100 HGX的兩倍。

最後，大家最關心的蘇馬沒有說，而是說“是的，肯定比英偉達低”。

目前，AMD已出貨HPE、戴爾、聯想、美超微等原始裝置廠商，正式發布時間定於下個季度，也就是明年。

說到2024年，AI加速晶元市場將異常活躍：

除了AMD的Mi300X，英特爾還將公升級其高迪架構GPU，英偉達H200也將在2024年第二季度問世。

據Tomshardware介紹，H200在記憶體容量和頻寬方面很可能會更上一層樓，計算效能有望與Mi300X相似。

最後，在發布會上，蘇馬也**表示，2024年AI晶元市場總規模將達到4000億美元。她認為AMD有信心從中分得一杯羹。

全球首款資料中心APU也來了。

在這次新聞發布會上，Instinct Mi300X 與 Instinct Mi300A 一起亮相。

前者專用於生成式 AI，而後者主要用於 HPC 計算。

據悉，MI300A是全球首款資料中心APU，CPU和GPU組合在同一封裝中，基準測試是NVIDIA Grace Hopper超級晶元，後者的CPU和GPU位於不同的封裝中，然後連線在一起。

具體來說，Mi300A 使用與 Mi300X 相同的基本設計和方法，但包含三個 5nm 核心計算晶元（CCD），每個晶元配備 8 個 ZEN 4 CPU，總共有 24 個 CPU 核心執行緒，外加 228 個 cDNA 3 計算單元。

在記憶體容量方面，相比Mi300X的8個12Hi堆疊，改為8個8Hi堆疊，從而將容量從192GB降低到128G，記憶體頻寬仍為53tb/s。

這樣的結果仍然是 NVIDIA H1 Sxm GPU 的 1006次。

據悉，MI300A已經開始在美國勞倫斯利弗莫爾實驗室使用，基於該晶元，該實驗室的El Capitan有望成為世界上第一台2Exaflop級別的超級計算機。

one more thing

同一天，谷歌還發布了其最新的AI晶元：TPU V5P。

它主要與其前身進行比較：

bfloat16 效能提公升至 167倍，記憶體容量提公升至95GB，全新int8操作，速度918tops等。

具體來說，用它來訓練乙個類似 GPT-3 的 1750 億引數模型，效能將提高 28次。

參考鏈結：[1]。

H100最強競品正式發布！推理速度提高 1 6 倍，配備 AMD 高達 192GB 的記憶體

相關問題答案