AMD最強AI晶元發布1 3倍效能NVIDIA H100!

Mondo 科技 更新 2024-01-28

當地時間12月7日,AMD於當地時間週三舉行“推進AI”發布會,正式推出面向AI和HPC的GPU產品Instinct Mi300A Mi300X加速器,與英偉達(NVIDIA)H100加速器直接競爭。 同時,AMD還發布了最新一代的銳龍8000系列APU,代號為Hawk Point,用於AI PC產品。

MI300A:HPC 效能比 NVIDIA H4 高 100 倍

雖然在今年6月的“資料中心與人工智慧技術大會”上,AMD發布了MI300A和MI300X,但當時MI300X只是紙面發布,現在MI300A和MI300X已經開始量產,AMD也公布了更多關於MI300A和MI300X的效能資料。

AMD Mi300A 採用小晶元設計,內部多達 13 個小晶元,全部基於台積電的 5nm 或 6nm 工藝技術(CPU GPU 計算核心為 5nm,HBM 記憶體和 IO 為 6nm 等),其中許多是 3D 堆疊,形成乙個面積可控的單晶元封裝,總共有 1460 億個電晶體。

具體來說,Mi300A 與上一代 Mi250X 一脈相承,採用下一代 CDN3 GPU 架構,具有 228 個計算單元(14,592 個核心),並整合了 24 個 ZEN 4 CPU 核心和 128GB HBM3 記憶體。 Mi300A 的計算核心被 8 個 HBM3 記憶體包圍,單個 HBM3 的頻寬為 63GB S,8 個 16GB 堆疊組成 128GB 統一記憶體,最多 5 個3 tb/s。

在算力方面,Mi300A 提供高達 61 Tflops FP64 的算力和高達 122 Tflops FP32 的算力。

AMD 表示,Mi300A GPU 將 HPC 提公升到乙個新的水平,其效能是 NVIDIA H100 的四倍,能效是 NVIDIA H100 的兩倍。

具體來說,在 OpenFoam 中,MI300A APU 的效能比 H100 高出 4 倍,這主要是由於統一的記憶體布局、GPU 效能以及整體記憶體容量和頻寬。 與 NVIDIA 的 Grace Hopper 超級晶元相比,該系統的每瓦效能提高了 2 倍。

AMD證實,目前正在出貨的MI300A也將用於為下一代El Capitan超級計算機提供動力,預計將提供高達2 Exaflops的計算能力。 值得一提的是,AMD是唯一一家通過Frontier超級計算機打破1 Exaflop大關的公司,Frontier超級計算機是地球上最高效的系統。 此外,惠普、Eviden、技嘉、美超微等也將成為MI300A加速器的OEM和解決方案合作夥伴。

MI300X:AI 效能比 NVIDIA H100 高 30%!

Mi300X 的設計比 Mi250X 更簡單,Mi250X 整合了 12 個小晶元,採用 5 6nm 工藝(HMB 和 IO 為 6nm)和 1530 億個電晶體,放棄了 APU 的 24 個 ZN4 核心和 IO 晶元,轉而採用具有更多計算核心的 CDNA 3 GPU。

每個基於 Mi300X cDNA 3 GPU 架構的 GCD 共有 40 個計算單元,相當於 2560 個核心。 總共有八個計算晶元 (GCD),因此總共有 320 個計算單元和 20,480 個核心單元。 然而,對於當前的生產版本,AMD縮減了這些核心的一小部分,因此實際上總共有304個計算單元(每個GPU小晶元38個CU)可用於19,456個流處理器。

在記憶體頻寬方面,Mi300X 還配備了更大的 192GB HBM3 記憶體(8 個 HBM3 封裝,每個堆疊 12 個 Hi),比 Mi250X 高 50%,帶來多達 5 個2TBS 頻寬和 896GB s Infinity Fabric 頻寬。 相比之下,英偉達即將推出的 H200 AI 加速器提供 141 GB 的容量,而英特爾即將推出的 Gaudi 3 將提供 144 GB 的容量。 大記憶體池在LLM(大型語言模型)中非常重要,LLM大多是記憶體繫結的,AMD可以通過在HBM記憶體容量方面領先來提公升其AI能力。

具體來說,AMD 的 MI300X 與 NVIDIA 的 H100 加速器相比:

記憶體容量增加 24次。

記憶體頻寬增加 16 倍。

1.3 個 FP8 TFLOPS

1.3 個 fp16 TFLOPS

在 1v1 比較中,速度比 H20 (LLAMA 2 70B) 快 100%。

在 1v1 比較中,速度比 H20 快 100 (FlashAttention 2)。

8v8 伺服器的速度比 H100 (LLAMA 2 70B) 快 40%。

在 8v8 伺服器上,速度比 H100 (Bloom 176B) 快 60%。

與 H100 相比,Mi300X 在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的效能提公升。

從平台的角度來看,將 8x Mi300X 解決方案與 8x H100 解決方案進行比較,前者在 Llama 2 70B 中獲得了 40% 的效能提公升,在 Bloom 176B 中獲得了 60% 的效能提公升。

AMD 指出,在 AI 訓練效能方面,MI300X 與競爭對手 (H100) 不相上下,並提供具有競爭力的**效能,同時在推理工作負載方面表現出色。

在功耗方面,AMD Mi300X 的額定功率為 750W,比 Mi250X 的 500W 高出 50%,比 NVIDIA H200 高出 50W。

rocm 6.0 開放軟體平台

AMD還推出了ROCM 60 開放軟體平台,此最新版本具有強大的新功能,包括支援各種 AI 工作負載,例如生成式 AI 和大型語言模型。

新的軟體堆疊支援最新的計算格式,如 FP16、BF16 和 FP8(包括 SPARSITY)。

這些優化相結合,可將 VLLM 的速度提高多達 2 個Hip Graph 速度提高 6 倍、1 倍,執行時間優化4 倍和 1 倍的 Flash 注意力,優化的核心3次。

AMD 指出,與上一代硬體和軟體組合相比,執行 Llama 2 70B 文字生成的 Mi300X 和 RoCM 6 的 AI 推理速度提高了約 8 倍。

ROCM 6 預計將於本月晚些時候與 mi300 AI 加速器一起推出。 看看 ROCM 6 與其真正的競爭對手 NVIDIA CUDA 堆疊的最新版本相比如何,這將是一件有趣的事情。

G593-ZX1 ZX2系列伺服器

AMD還展示了技嘉G593-ZX1 ZX2系列伺服器的配置,該伺服器提供多達8個Mi300x GPU加速器和2個AMD EPYC 9004 CPU。 這些系統將配備多達 8 個 3000W 電源,總功率為 18000W。

據介紹,整合了8個MI300X GPU的加速器平台,與NVIDIA HGX H100平台相比,帶來的改進包括:

2.4 倍高的 HBM3 記憶體 (15 tb vs. 640 gb)

1.計算出的翻牌次數增加 3 倍(104 pf vs. 7.9 pf)

相似的雙向頻寬(896 GB s vs..) 900 gb/s)

類似的單節點環形頻寬(448 GB s vs 450 gb/s)

類似的網路功能(400 GbE 與 400 GbE。 400 gbe)

類似的 PCIe 協議(PCIe Gen 5 128 GB s)。

據SemiAnalysis報道,Microsoft、Meta、甲骨文、谷歌、Supermicro Qunta-Direct、亞馬遜等公司已向AMD下達了不同數量的MI300系列訂單。

今天,Microsoft還宣布將評估AMD人工智慧加速器產品的需求,並評估採用新產品的可行性。 Meta 還宣布將在資料中心採用 AMD 的全新 Mi300X 晶元產品。 甲骨文還表示,該公司將在雲服務中使用AMD的**晶元。

此前,市場預計AMD的MI300系列將在2024年出貨約3040萬台,最大的客戶是Microsoft和谷歌。

值得注意的是,在最近的財報電話會議上,AMD首席執行官蘇姿丰表示,“基於我們在AI路線圖執行和雲客戶購買承諾方面取得的快速進展,隨著全年收入的增長,預計第四季度資料中心GPU收入將達到約4億美元,2024年將超過20億美元。 這一增長將使MI300系列成為AMD歷史上銷售額增長最快的產品。

目前,在生成式AI的熱潮下,英偉達憑藉其AI晶元的卓越效能和CUDA的生態優勢,在雲AI晶元市場佔據壟斷優勢。 然而,由於英偉達AI晶元成本高昂且短缺,雲服務和AI技術廠商在成本和多元化鏈安全方面存在考慮,這也給了AMD和英特爾等競爭對手更多的機會。

編輯:新知勳-流氓劍。

相關問題答案

    AMD發布了自己最強的AI晶元,效能碾壓H100,不應該在國內推出

    在AI晶元部分,英偉達目前是全球無可爭議的領頭羊,不僅出貨量最高,而且效能最強,全球幾乎所有大型AI機型都使用英偉達AI晶元提供算力。近日,AMD召開了 推進AI 發布會,正式推出了面向AI和HPC的GPU產品Instinct MiA MiX加速器,與英偉達此前最強AI晶元H直接競爭。事實上,AMD...

    算力領域AMD新款AI晶元即將發布,官方媒體紛紛表示,將讓算力隨時使用。

    AMD宣布將在不久的將來舉辦一場以 推進AI 為主題的現場活動,屆時將推出MI系列下一代資料中心GPU加速器。據報道,AMD的資料中心GPU收入預計將在今年第四季度達到億美元,並在年超過億美元。MI可能成為該公司最快銷售超過億美元的產品,Microsoft 谷歌 亞馬遜 Meta等公司都有興趣購買。...

    如果國產晶元再次突破,就不用擔心AMD和NVIDIA了,把CPU之外的動力解放出來

    如果再次突破國產晶元,就不用擔心AMD和英偉達了,把CPU之外的動力解放出來。近日,摩爾光纖在北京推出了圖形處理器,這一領域曾被AMD 英偉達 英特爾等美國公司壟斷,如今正被中國企業進入,對中國半導體產業具有重要意義。資料顯示,佔全球GPU市場 以上的英特爾憑藉在PC晶元領域的領先地位和在晶元領域的...

    谷歌最強AI模型Gemini正式發布了三個版本的多模態

    財聯社月日 牛佔林主編 當地時間週三,美國科技巨頭谷歌宣布推出其認為最大 最強大的人工智慧模型Gemini,該模型能夠處理 音訊和文字等不同內容形式的資訊。谷歌表示,其備受期待的人工智慧模型Gemini能夠做出更複雜的推理,並理解比以前的技術更細微的資訊。通過閱讀 過濾和理解資訊,它可以從數十萬份檔...

    英特爾與AMD晶元爭議 英特爾新機型廣告對比

    最近,英特爾在其廣告活動中用一種非常冒犯的方式來比較AMD的Ryzen 移動晶元,這在消費者和市場中引起了爭議。英特爾發布了一本名為 Core Truths 的政策手冊,該手冊揭示了AMD的移動處理器命名方案如何誤導消費者。據 The Verge 報道,該策略手冊已被刪除。雖然這份策略手冊並非完全沒...