大家好,我是Ergou。
英偉達和AMD這兩大晶元巨頭正在掐頭!
這一切都始於兩周前,當時AMD董事長兼首席執行官蘇姿丰在一次活動中推出了用於生成式AI和資料中心的下一代Intinct Mi300x GPU晶元加速卡。
僅僅發布顯示卡並沒有錯,但是AMD 聲稱,在推斷 Meta 的 LLAMA 2700 億引數模型時,MI300X 晶元能夠實現比 H100 低 40% 的延遲。
這意味著AMD的Mi300X晶元效能更好
英偉達作為GPU顯示卡行業的老大哥,他怎麼可能願意聽。
因此,就在上週,英偉達特意發布了一篇官方部落格文章,以證明 h100 具有頂級的推理效能。
英偉達部落格指出:
一流的 AI 效能需要高效的平行計算架構、高效的工具堆疊和深度優化的演算法。 Nvidia 發布了開源 NVIDIA TensorRT-LLM ,其中包括針對 NVIDIA H100 Tensor Core GPU 核心的 NVIDIA Hopper 架構的最新核心優化。 這些優化使 LLAMA 2 70B 等模型能夠在 H100 GPU 上執行加速的 FP8 操作,同時保持推理準確性。簡而言之,Nvidia 的意思是 AMD 不會使用優化軟體或 H100 對 FP8 資料型別的支援進行基準測試,而是在 FP16 上使用 VLLM 進行測試。 通常,精度較低的資料型別會犧牲精度來換取效能。 換句話說,英偉達表示,AMD故意阻礙了H100的效能。 Nvidia 還在部落格中介紹了在 LLAMA 2 70B 型號上配備 8 個 H100 GPU 的單個 NVIDIA DGX H100 伺服器的實際測試效能。 該測試包括“batch-1”一次處理乙個推理請求的結果,以及使用固定響應時間處理的結果。AMD在發布會上提到,Mi300X晶元的推理效能比H100 GPU更好,但AMD的測試並沒有使用優化軟體如果基準測試正確,H100 的推理速度將提高 2 倍。
英偉達聲稱,當使用其閉源 Tensorrt LLM 框架和 FP8 進行基準測試時,H100 的效能實際上是 Mi300X 的兩倍。
英偉達還認為,AMD通過將批處理大小設定為1,換句話說,一次只處理乙個推理請求,從而提供了最佳的效能案例。 英偉達認為這是不現實的,因為大多數雲提供商都以延遲換取更大的批量大小。
根據 NVIDIA 的說法,具有 100 個加速器的 DGX H8 節點能夠處理 14 個批量大小,而具有 8 個 AMD mi300x 的類似節點可以使用 NVIDIA 的優化軟體堆疊處理乙個批量大小。
在英偉達部落格文章發布後的一天內,AMD也發布了一篇博文作為回應,聲稱其顯示卡確實具有行業領先的效能,而英偉達的基準測試與應用相比並不相同。
AMD指責英偉達進行了不合理的測試基準測試:
NVIDIA 在 H100 上使用 Tensorrt-LLM 進行了測試,而不是 AMD 基準測試中使用的 VLLMNVIDIA 比較了 H100 上的 FP8 資料型別與 AMD Mi300X GPU 上的 FP16 資料型別的效能;英偉達將AMD公布的效能資料從相對延遲逆轉為絕對吞吐量AMD 說:
我們正處於產品公升級階段,我們一直在尋找新的方法來釋放 ROCM 軟體和 AMD Instinct MI300 加速器的效能。下圖是AMD使用執行LLAMA 70B的最新Mi300X的效能資料的比較,藍色是Mi300X顯示卡的效能,灰色是H100顯示卡的效能。我們在發布會上展示的資料是在 11 月的測試期間記錄的。 自 11 月以來,我們已經取得了長足的進步,我們很高興與大家分享我們的最新成果,突出這些成果。
不難看出,在AMD的測試中,Mi300X在效能和延遲方面優於H100。
AMD接著說:“結果再次表明,即使使用FP8和TensorRT-LLM,配備FP16的MI300X也能與NVIDIA推薦的H100相媲美。 ”
英偉達事後沒有就AMD的最新部落格文章發表宣告,但英偉達和AMD的基準測試辯論凸顯了軟體庫和框架在提高AI效能方面所發揮的作用。
英偉達的主要論點之一是,AMD 使用 VLLM 而不是 TensorRT-LLM 軟體進行測試,這就是 H100 處於劣勢的原因。
Tensorrt-LLM 於 9 月發布,並於 10 月底發布,它結合了深度學習編譯器、優化核心、預處理和後處理步驟以及多 GPU 和多節點通訊原語等功能。
NVIDIA 聲稱,當使用優化軟體執行 60 億引數的 GPT-J 模型時,H100 的推理效能有效地提高了一倍,而 H100 在 LLAMA 2 70B 中的效能也提高了 77%。
AMD在本月早些時候推出ROCM 6框架時也發布了類似的公告。 AMD 聲稱其最新的 AI 框架能夠將 LLM 效能提高 13 倍至 26 倍。 在新的 ROCM 6 軟體框架上執行的 Mi250X 比在 ROCM 300 上執行的 Mi250X 快 8 倍。
AI 推理工作負載非常複雜,效能取決於多種因素,包括 flops、精度、記憶體容量、記憶體頻寬、互連頻寬和模型大小。
AMD這次最大的優勢不是浮點效能,而是記憶體——MI300X的高頻寬記憶體(HBM)速度提高了55%,速度為5192GB 為 2TB 秒,是 H100 的 80GB 的兩倍多。 這對於 AI 推理很重要,因為模型的大小與執行模型所需的記憶體量成正比。 在 FP16 中,每個引數都有 16 位或 2 個位元組。 因此,對於 LLAMA 70B,需要大約 140GB+ 的 KV 快取空間,這有助於加速推理工作負載,但需要額外的記憶體。
AMD 的 MI300X 平台可以支援多達 8 個加速器和總共 1 個 HBM 的系統5TB,而 NVIDIA 的 HGX 平台峰值為 640 GB。 正如 SemiAnalysis 在其 MI300X 發布報告中指出的那樣,在 FP16 上,具有 1760 億個引數的 Bloom 模型需要 352GB 記憶體,為 AMD 留出更多記憶體以適應更大的批量大小。
英偉達通常不會與AMD打架,但這次可能真的驚慌失措。
因為在AMD新聞發布會當天,Meta和Microsoft表示將購買使用AMD最新AI晶元的Instinct Mi300X,這意味著在Nvidia顯示卡缺貨的情況下,AMD應該是最優先的選擇。
下圖是研究公司 Omidia 最近的乙份報告,顯示了 NVIDIA 在 2023 年第三季度排名前 12 位的 H100 顯示卡買家:
這些大客戶可能面臨流失的風險。
習逍遙科技說,她不久前剛剛寫了一篇文章英偉達危機爆發了!一夜之間,四面楚歌,深入分析了英偉達現在面臨的對手和危機(感興趣的朋友可以移到檢視)。
1、AMD正面挑戰英偉達顯示卡霸主地位;
2、Microsoft自主研發的AI晶元,軟硬體兼得;
3、谷歌堅持用自有TPU打造下一代最強TPU
4.美國**對英偉達的限制,禁止在中國大陸銷售,將失去阿里抖音客戶;
5. OpenAI 和其他初創公司正在開發自己的 AI 晶元。
業界會等待英偉達嗎?英偉達的“顯示卡蛋糕”會吃多少?
答案可能並不樂觀,但英偉達可能仍然是最大的贏家。