來自凹面非寺廟量子位元的豐富色彩 | qbitai
這一晚,AI技術圈熱鬧非凡:
谷歌搬出了“蓄謀已久”的大殺手雙子座,聲稱要直接推翻GPT-4;
另一方面,晶元製造商AMD再也忍無可忍,正式發布了Instinct MI300X GPU,直接與Nvidia H100進行基準測試。
Instinct Mi300X 是 AMD 有史以來最大的晶元
擁有 1530 億個電晶體,AI 任務推理效能比 H100 快 1.16倍,記憶體容量為192GB,是H100(24x)。
它的出現無疑為該行業提供了具有競爭力的第二選擇。
訊息稱,Microsoft、Meta、OpenAI和甲骨文等公司已率先承諾購買AMD的GPU以取代H100。
AI加速晶元市場開始發生變化了嗎?
推理效能比 H100 HGX 快 1%6 倍,多達 2900 億個引數。
AMD在6月份預覽了這款晶元,今天是正式發布,公布了引數等細節。
據介紹,Instinct Mi300X由AMD採用有史以來最先進的製作技術打造,是小晶元設計方法的“代表作”。
它下面是 4 個 6nm IO 晶元,頂部融合了 8 個 HBM3 記憶體(12Hi 堆疊)和 8 個 5nm cDNA 3 GPU 小晶元(3D 堆疊)。
其中,3D堆疊GPU和I-O晶元通過“3用於連線的 5D“ 封裝技術。
最終產品功耗為 750W,包含 304 個計算單元,53TBS 頻寬和高達 192GB 的 HBM3 記憶體(而 H100 只有 80GB)。
在現實世界的生成式 AI 平台應用中,Mi300X 被設計為一組 8 個,通過 Infinity Fabri 互連,GPU 之間的吞吐量為 896 GB S。
同時,此組合的記憶體總量達到 15TB HBM3(H640 為 100GB)提供多達 10 個4 Petaflops 的計算效能 (BF16 FP16)。
與NVIDIA的H100 HGX平台(BF16 FP16)相比,記憶體總量增加了24 倍,計算能力增加 13次。
同時,AMD還為Mi300X配備了400GbE網路,支援多種網絡卡,比NVIDIA有更多的選擇。
以下是AMD分享的官方效能測試結果(理性參考)。
首先,對於 HPC 工作負載,MI300X 的 FP64 和 FP32 向量矩陣的理論峰值吞吐量為 H2 的 1004次;對於 AI 工作負載,TF32、FP16、BF16、FP8 和 INT8 的理論峰值吞吐量為 H100 的 13次。
請注意,這些**都不包含稀疏性(儘管 mi300x 確實支援它)。
其次,在AI推理任務中,AMD以1760億引數Flash Attention 2為例,聲稱MI300X在吞吐量(tokens S)方面比H100多1。同時,在 700 億引數 LLAMA 2 上,聊天延遲慢 6 倍,比 H1 快 100 倍4 倍(基於 128 個令牌工作負載的 2k 序列長度)。
不得不說,MI300X的大記憶體容量和頻寬確實給它帶來了這個很大的優勢。
相比之下,Mi300X 在 300 億引數 MPT 上的效能在訓練任務方面與 H100 HGX 大致相同。
所以總的來說,MI300X的優勢更多在於推理。
此外,需要強調的是,Mi300X由於記憶體容量更大,可以容納300億引數訓練模型和700億引數推理模型,是H100的兩倍。
而MI300X可以支援高達700億次訓練和2900億個引數的推理模型,是H100 HGX的兩倍。
最後,大家最關心的蘇馬沒有說,而是說“是的,肯定比英偉達低”。
目前,AMD已出貨HPE、戴爾、聯想、美超微等原始裝置廠商,正式發布時間定於下個季度,也就是明年。
說到2024年,AI加速晶元市場將異常活躍:
除了AMD的Mi300X,英特爾還將公升級其高迪架構GPU,英偉達H200也將在2024年第二季度問世。
據Tomshardware介紹,H200在記憶體容量和頻寬方面很可能會更上一層樓,計算效能有望與Mi300X相似。
最後,在發布會上,蘇馬也**表示,2024年AI晶元市場總規模將達到4000億美元。 她認為AMD有信心從中分得一杯羹。
全球首款資料中心APU也來了。
在這次新聞發布會上,Instinct Mi300X 與 Instinct Mi300A 一起亮相。
前者專用於生成式 AI,而後者主要用於 HPC 計算。
據悉,MI300A是全球首款資料中心APU,CPU和GPU組合在同一封裝中,基準測試是NVIDIA Grace Hopper超級晶元,後者的CPU和GPU位於不同的封裝中,然後連線在一起。
具體來說,Mi300A 使用與 Mi300X 相同的基本設計和方法,但包含三個 5nm 核心計算晶元 (CCD),每個晶元配備 8 個 ZEN 4 CPU,總共有 24 個 CPU 核心執行緒,外加 228 個 cDNA 3 計算單元。
在記憶體容量方面,相比Mi300X的8個12Hi堆疊,改為8個8Hi堆疊,從而將容量從192GB降低到128G,記憶體頻寬仍為53tb/s。
這樣的結果仍然是 NVIDIA H1 Sxm GPU 的 1006次。
據悉,MI300A已經開始在美國勞倫斯利弗莫爾實驗室使用,基於該晶元,該實驗室的El Capitan有望成為世界上第一台2Exaflop級別的超級計算機。
one more thing
同一天,谷歌還發布了其最新的AI晶元:TPU V5P。
它主要與其前身進行比較:
bfloat16 效能提公升至 167倍,記憶體容量提公升至95GB,全新int8操作,速度918tops等。
具體來說,用它來訓練乙個類似 GPT-3 的 1750 億引數模型,效能將提高 28次。
參考鏈結:[1]。