顯示卡大戰！英偉達和AMD互相掐！GPU霸主地位能否保持？

大家好，我是Ergou。

英偉達和AMD這兩大晶元巨頭正在掐頭！

這一切都始於兩周前，當時AMD董事長兼首席執行官蘇姿丰在一次活動中推出了用於生成式AI和資料中心的下一代Intinct Mi300x GPU晶元加速卡。

僅僅發布顯示卡並沒有錯，但是AMD 聲稱，在推斷 Meta 的 LLAMA 2700 億引數模型時，MI300X 晶元能夠實現比 H100 低 40% 的延遲。

這意味著AMD的Mi300X晶元效能更好

英偉達作為GPU顯示卡行業的老大哥，他怎麼可能願意聽。

因此，就在上週，英偉達特意發布了一篇官方部落格文章，以證明 h100 具有頂級的推理效能。

英偉達部落格指出：

一流的 AI 效能需要高效的平行計算架構、高效的工具堆疊和深度優化的演算法。 Nvidia 發布了開源 NVIDIA TensorRT-LLM ，其中包括針對 NVIDIA H100 Tensor Core GPU 核心的 NVIDIA Hopper 架構的最新核心優化。這些優化使 LLAMA 2 70B 等模型能夠在 H100 GPU 上執行加速的 FP8 操作，同時保持推理準確性。

AMD在發布會上提到，Mi300X晶元的推理效能比H100 GPU更好，但AMD的測試並沒有使用優化軟體如果基準測試正確，H100 的推理速度將提高 2 倍。

簡而言之，Nvidia 的意思是 AMD 不會使用優化軟體或 H100 對 FP8 資料型別的支援進行基準測試，而是在 FP16 上使用 VLLM 進行測試。通常，精度較低的資料型別會犧牲精度來換取效能。換句話說，英偉達表示，AMD故意阻礙了H100的效能。 Nvidia 還在部落格中介紹了在 LLAMA 2 70B 型號上配備 8 個 H100 GPU 的單個 NVIDIA DGX H100 伺服器的實際測試效能。該測試包括“batch-1”一次處理乙個推理請求的結果，以及使用固定響應時間處理的結果。

英偉達聲稱，當使用其閉源 Tensorrt LLM 框架和 FP8 進行基準測試時，H100 的效能實際上是 Mi300X 的兩倍。

英偉達還認為，AMD通過將批處理大小設定為1，換句話說，一次只處理乙個推理請求，從而提供了最佳的效能案例。英偉達認為這是不現實的，因為大多數雲提供商都以延遲換取更大的批量大小。

根據 NVIDIA 的說法，具有 100 個加速器的 DGX H8 節點能夠處理 14 個批量大小，而具有 8 個 AMD mi300x 的類似節點可以使用 NVIDIA 的優化軟體堆疊處理乙個批量大小。

在英偉達部落格文章發布後的一天內，AMD也發布了一篇博文作為回應，聲稱其顯示卡確實具有行業領先的效能，而英偉達的基準測試與應用相比並不相同。

AMD指責英偉達進行了不合理的測試基準測試：

NVIDIA 在 H100 上使用 Tensorrt-LLM 進行了測試，而不是 AMD 基準測試中使用的 VLLMNVIDIA 比較了 H100 上的 FP8 資料型別與 AMD Mi300X GPU 上的 FP16 資料型別的效能;英偉達將AMD公布的效能資料從相對延遲逆轉為絕對吞吐量AMD 說：

我們正處於產品公升級階段，我們一直在尋找新的方法來釋放 ROCM 軟體和 AMD Instinct MI300 加速器的效能。

我們在發布會上展示的資料是在 11 月的測試期間記錄的。自 11 月以來，我們已經取得了長足的進步，我們很高興與大家分享我們的最新成果，突出這些成果。

下圖是AMD使用執行LLAMA 70B的最新Mi300X的效能資料的比較，藍色是Mi300X顯示卡的效能，灰色是H100顯示卡的效能。

不難看出，在AMD的測試中，Mi300X在效能和延遲方面優於H100。

AMD接著說：“結果再次表明，即使使用FP8和TensorRT-LLM，配備FP16的MI300X也能與NVIDIA推薦的H100相媲美。 ”

英偉達事後沒有就AMD的最新部落格文章發表宣告，但英偉達和AMD的基準測試辯論凸顯了軟體庫和框架在提高AI效能方面所發揮的作用。

英偉達的主要論點之一是，AMD 使用 VLLM 而不是 TensorRT-LLM 軟體進行測試，這就是 H100 處於劣勢的原因。

Tensorrt-LLM 於 9 月發布，並於 10 月底發布，它結合了深度學習編譯器、優化核心、預處理和後處理步驟以及多 GPU 和多節點通訊原語等功能。

NVIDIA 聲稱，當使用優化軟體執行 60 億引數的 GPT-J 模型時，H100 的推理效能有效地提高了一倍，而 H100 在 LLAMA 2 70B 中的效能也提高了 77%。

AMD在本月早些時候推出ROCM 6框架時也發布了類似的公告。 AMD 聲稱其最新的 AI 框架能夠將 LLM 效能提高 13 倍至 26 倍。在新的 ROCM 6 軟體框架上執行的 Mi250X 比在 ROCM 300 上執行的 Mi250X 快 8 倍。

AI 推理工作負載非常複雜，效能取決於多種因素，包括 flops、精度、記憶體容量、記憶體頻寬、互連頻寬和模型大小。

AMD這次最大的優勢不是浮點效能，而是記憶體——MI300X的高頻寬記憶體（HBM）速度提高了55%，速度為5192GB 為 2TB 秒，是 H100 的 80GB 的兩倍多。 這對於 AI 推理很重要，因為模型的大小與執行模型所需的記憶體量成正比。在 FP16 中，每個引數都有 16 位或 2 個位元組。因此，對於 LLAMA 70B，需要大約 140GB+ 的 KV 快取空間，這有助於加速推理工作負載，但需要額外的記憶體。

AMD 的 MI300X 平台可以支援多達 8 個加速器和總共 1 個 HBM 的系統5TB，而 NVIDIA 的 HGX 平台峰值為 640 GB。 正如 SemiAnalysis 在其 MI300X 發布報告中指出的那樣，在 FP16 上，具有 1760 億個引數的 Bloom 模型需要 352GB 記憶體，為 AMD 留出更多記憶體以適應更大的批量大小。

英偉達通常不會與AMD打架，但這次可能真的驚慌失措。

因為在AMD新聞發布會當天，Meta和Microsoft表示將購買使用AMD最新AI晶元的Instinct Mi300X，這意味著在Nvidia顯示卡缺貨的情況下，AMD應該是最優先的選擇。

下圖是研究公司 Omidia 最近的乙份報告，顯示了 NVIDIA 在 2023 年第三季度排名前 12 位的 H100 顯示卡買家：

這些大客戶可能面臨流失的風險。

習逍遙科技說，她不久前剛剛寫了一篇文章英偉達危機爆發了！一夜之間，四面楚歌，深入分析了英偉達現在面臨的對手和危機（感興趣的朋友可以移到檢視）。

1、AMD正面挑戰英偉達顯示卡霸主地位;

2、Microsoft自主研發的AI晶元，軟硬體兼得;

3、谷歌堅持用自有TPU打造下一代最強TPU

4.美國**對英偉達的限制，禁止在中國大陸銷售，將失去阿里抖音客戶;

5. OpenAI 和其他初創公司正在開發自己的 AI 晶元。

業界會等待英偉達嗎？英偉達的“顯示卡蛋糕”會吃多少？

答案可能並不樂觀，但英偉達可能仍然是最大的贏家。

顯示卡大戰！英偉達和AMD互相掐！GPU霸主地位能否保持？

相關問題答案

如何將 NVIDIA 顯示卡驅動程式恢復到以前的版本？看完就知道了！

AMD正式發布AI晶元，英偉達應該緊張

英偉達提前發布中文版顯示卡

英偉達RTX4090D顯示卡即將發布，功耗降至425W

英偉達在RTX 4090顯示卡RTX 4090D和市場禁令下的策略