H100最強競品正式發布!推理速度提高 1 6 倍,配備 AMD 高達 192GB 的記憶體

Mondo 數碼 更新 2024-01-28

來自凹面非寺廟量子位元的豐富色彩 | qbitai

這一晚,AI技術圈熱鬧非凡:

谷歌搬出了“蓄謀已久”的大殺手雙子座,聲稱要直接推翻GPT-4;

另一方面,晶元製造商AMD再也忍無可忍,正式發布了Instinct MI300X GPU,直接與Nvidia H100進行基準測試。

Instinct Mi300X 是 AMD 有史以來最大的晶元

擁有 1530 億個電晶體,AI 任務推理效能比 H100 快 1.16倍,記憶體容量為192GB,是H100(24x)。

它的出現無疑為該行業提供了具有競爭力的第二選擇。

訊息稱,Microsoft、Meta、OpenAI和甲骨文等公司已率先承諾購買AMD的GPU以取代H100。

AI加速晶元市場開始發生變化了嗎?

推理效能比 H100 HGX 快 1%6 倍,多達 2900 億個引數。

AMD在6月份預覽了這款晶元,今天是正式發布,公布了引數等細節。

據介紹,Instinct Mi300X由AMD採用有史以來最先進的製作技術打造,是小晶元設計方法的“代表作”。

它下面是 4 個 6nm IO 晶元,頂部融合了 8 個 HBM3 記憶體(12Hi 堆疊)和 8 個 5nm cDNA 3 GPU 小晶元(3D 堆疊)。

其中,3D堆疊GPU和I-O晶元通過“3用於連線的 5D“ 封裝技術。

最終產品功耗為 750W,包含 304 個計算單元,53TBS 頻寬和高達 192GB 的 HBM3 記憶體(而 H100 只有 80GB)。

在現實世界的生成式 AI 平台應用中,Mi300X 被設計為一組 8 個,通過 Infinity Fabri 互連,GPU 之間的吞吐量為 896 GB S。

同時,此組合的記憶體總量達到 15TB HBM3(H640 為 100GB)提供多達 10 個4 Petaflops 的計算效能 (BF16 FP16)。

與NVIDIA的H100 HGX平台(BF16 FP16)相比,記憶體總量增加了24 倍,計算能力增加 13次。

同時,AMD還為Mi300X配備了400GbE網路,支援多種網絡卡,比NVIDIA有更多的選擇。

以下是AMD分享的官方效能測試結果(理性參考)。

首先,對於 HPC 工作負載,MI300X 的 FP64 和 FP32 向量矩陣的理論峰值吞吐量為 H2 的 1004次;對於 AI 工作負載,TF32、FP16、BF16、FP8 和 INT8 的理論峰值吞吐量為 H100 的 13次。

請注意,這些**都不包含稀疏性(儘管 mi300x 確實支援它)。

其次,在AI推理任務中,AMD以1760億引數Flash Attention 2為例,聲稱MI300X在吞吐量(tokens S)方面比H100多1。同時,在 700 億引數 LLAMA 2 上,聊天延遲慢 6 倍,比 H1 快 100 倍4 倍(基於 128 個令牌工作負載的 2k 序列長度)。

不得不說,MI300X的大記憶體容量和頻寬確實給它帶來了這個很大的優勢。

相比之下,Mi300X 在 300 億引數 MPT 上的效能在訓練任務方面與 H100 HGX 大致相同。

所以總的來說,MI300X的優勢更多在於推理。

此外,需要強調的是,Mi300X由於記憶體容量更大,可以容納300億引數訓練模型和700億引數推理模型,是H100的兩倍。

而MI300X可以支援高達700億次訓練和2900億個引數的推理模型,是H100 HGX的兩倍。

最後,大家最關心的蘇馬沒有說,而是說“是的,肯定比英偉達低”。

目前,AMD已出貨HPE、戴爾、聯想、美超微等原始裝置廠商,正式發布時間定於下個季度,也就是明年。

說到2024年,AI加速晶元市場將異常活躍:

除了AMD的Mi300X,英特爾還將公升級其高迪架構GPU,英偉達H200也將在2024年第二季度問世。

據Tomshardware介紹,H200在記憶體容量和頻寬方面很可能會更上一層樓,計算效能有望與Mi300X相似。

最後,在發布會上,蘇馬也**表示,2024年AI晶元市場總規模將達到4000億美元。 她認為AMD有信心從中分得一杯羹。

全球首款資料中心APU也來了。

在這次新聞發布會上,Instinct Mi300X 與 Instinct Mi300A 一起亮相。

前者專用於生成式 AI,而後者主要用於 HPC 計算。

據悉,MI300A是全球首款資料中心APU,CPU和GPU組合在同一封裝中,基準測試是NVIDIA Grace Hopper超級晶元,後者的CPU和GPU位於不同的封裝中,然後連線在一起。

具體來說,Mi300A 使用與 Mi300X 相同的基本設計和方法,但包含三個 5nm 核心計算晶元 (CCD),每個晶元配備 8 個 ZEN 4 CPU,總共有 24 個 CPU 核心執行緒,外加 228 個 cDNA 3 計算單元。

在記憶體容量方面,相比Mi300X的8個12Hi堆疊,改為8個8Hi堆疊,從而將容量從192GB降低到128G,記憶體頻寬仍為53tb/s。

這樣的結果仍然是 NVIDIA H1 Sxm GPU 的 1006次。

據悉,MI300A已經開始在美國勞倫斯利弗莫爾實驗室使用,基於該晶元,該實驗室的El Capitan有望成為世界上第一台2Exaflop級別的超級計算機。

one more thing

同一天,谷歌還發布了其最新的AI晶元:TPU V5P。

它主要與其前身進行比較:

bfloat16 效能提公升至 167倍,記憶體容量提公升至95GB,全新int8操作,速度918tops等。

具體來說,用它來訓練乙個類似 GPT-3 的 1750 億引數模型,效能將提高 28次。

參考鏈結:[1]。

相關問題答案