顯示卡大戰!英偉達和AMD互相掐!GPU霸主地位能否保持?

Mondo 數碼 更新 2024-01-30

大家好,我是Ergou。

英偉達和AMD這兩大晶元巨頭正在掐頭!

這一切都始於兩周前,當時AMD董事長兼首席執行官蘇姿丰在一次活動中推出了用於生成式AI和資料中心的下一代Intinct Mi300x GPU晶元加速卡。

僅僅發布顯示卡並沒有錯,但是AMD 聲稱,在推斷 Meta 的 LLAMA 2700 億引數模型時,MI300X 晶元能夠實現比 H100 低 40% 的延遲。

這意味著AMD的Mi300X晶元效能更好

英偉達作為GPU顯示卡行業的老大哥,他怎麼可能願意聽。

因此,就在上週,英偉達特意發布了一篇官方部落格文章,以證明 h100 具有頂級的推理效能。

英偉達部落格指出:

一流的 AI 效能需要高效的平行計算架構、高效的工具堆疊和深度優化的演算法。 Nvidia 發布了開源 NVIDIA TensorRT-LLM ,其中包括針對 NVIDIA H100 Tensor Core GPU 核心的 NVIDIA Hopper 架構的最新核心優化。 這些優化使 LLAMA 2 70B 等模型能夠在 H100 GPU 上執行加速的 FP8 操作,同時保持推理準確性。

AMD在發布會上提到,Mi300X晶元的推理效能比H100 GPU更好,但AMD的測試並沒有使用優化軟體如果基準測試正確,H100 的推理速度將提高 2 倍。

簡而言之,Nvidia 的意思是 AMD 不會使用優化軟體或 H100 對 FP8 資料型別的支援進行基準測試,而是在 FP16 上使用 VLLM 進行測試。 通常,精度較低的資料型別會犧牲精度來換取效能。 換句話說,英偉達表示,AMD故意阻礙了H100的效能。 Nvidia 還在部落格中介紹了在 LLAMA 2 70B 型號上配備 8 個 H100 GPU 的單個 NVIDIA DGX H100 伺服器的實際測試效能。 該測試包括“batch-1”一次處理乙個推理請求的結果,以及使用固定響應時間處理的結果。

英偉達聲稱,當使用其閉源 Tensorrt LLM 框架和 FP8 進行基準測試時,H100 的效能實際上是 Mi300X 的兩倍。

英偉達還認為,AMD通過將批處理大小設定為1,換句話說,一次只處理乙個推理請求,從而提供了最佳的效能案例。 英偉達認為這是不現實的,因為大多數雲提供商都以延遲換取更大的批量大小。

根據 NVIDIA 的說法,具有 100 個加速器的 DGX H8 節點能夠處理 14 個批量大小,而具有 8 個 AMD mi300x 的類似節點可以使用 NVIDIA 的優化軟體堆疊處理乙個批量大小。

在英偉達部落格文章發布後的一天內,AMD也發布了一篇博文作為回應,聲稱其顯示卡確實具有行業領先的效能,而英偉達的基準測試與應用相比並不相同。

AMD指責英偉達進行了不合理的測試基準測試:

NVIDIA 在 H100 上使用 Tensorrt-LLM 進行了測試,而不是 AMD 基準測試中使用的 VLLMNVIDIA 比較了 H100 上的 FP8 資料型別與 AMD Mi300X GPU 上的 FP16 資料型別的效能;英偉達將AMD公布的效能資料從相對延遲逆轉為絕對吞吐量AMD 說:

我們正處於產品公升級階段,我們一直在尋找新的方法來釋放 ROCM 軟體和 AMD Instinct MI300 加速器的效能。

我們在發布會上展示的資料是在 11 月的測試期間記錄的。 自 11 月以來,我們已經取得了長足的進步,我們很高興與大家分享我們的最新成果,突出這些成果。

下圖是AMD使用執行LLAMA 70B的最新Mi300X的效能資料的比較,藍色是Mi300X顯示卡的效能,灰色是H100顯示卡的效能。

不難看出,在AMD的測試中,Mi300X在效能和延遲方面優於H100。

AMD接著說:“結果再次表明,即使使用FP8和TensorRT-LLM,配備FP16的MI300X也能與NVIDIA推薦的H100相媲美。 ”

英偉達事後沒有就AMD的最新部落格文章發表宣告,但英偉達和AMD的基準測試辯論凸顯了軟體庫和框架在提高AI效能方面所發揮的作用。

英偉達的主要論點之一是,AMD 使用 VLLM 而不是 TensorRT-LLM 軟體進行測試,這就是 H100 處於劣勢的原因。

Tensorrt-LLM 於 9 月發布,並於 10 月底發布,它結合了深度學習編譯器、優化核心、預處理和後處理步驟以及多 GPU 和多節點通訊原語等功能。

NVIDIA 聲稱,當使用優化軟體執行 60 億引數的 GPT-J 模型時,H100 的推理效能有效地提高了一倍,而 H100 在 LLAMA 2 70B 中的效能也提高了 77%。

AMD在本月早些時候推出ROCM 6框架時也發布了類似的公告。 AMD 聲稱其最新的 AI 框架能夠將 LLM 效能提高 13 倍至 26 倍。 在新的 ROCM 6 軟體框架上執行的 Mi250X 比在 ROCM 300 上執行的 Mi250X 快 8 倍。

AI 推理工作負載非常複雜,效能取決於多種因素,包括 flops、精度、記憶體容量、記憶體頻寬、互連頻寬和模型大小。

AMD這次最大的優勢不是浮點效能,而是記憶體——MI300X的高頻寬記憶體(HBM)速度提高了55%,速度為5192GB 為 2TB 秒,是 H100 的 80GB 的兩倍多。 這對於 AI 推理很重要,因為模型的大小與執行模型所需的記憶體量成正比。 在 FP16 中,每個引數都有 16 位或 2 個位元組。 因此,對於 LLAMA 70B,需要大約 140GB+ 的 KV 快取空間,這有助於加速推理工作負載,但需要額外的記憶體。

AMD 的 MI300X 平台可以支援多達 8 個加速器和總共 1 個 HBM 的系統5TB,而 NVIDIA 的 HGX 平台峰值為 640 GB。 正如 SemiAnalysis 在其 MI300X 發布報告中指出的那樣,在 FP16 上,具有 1760 億個引數的 Bloom 模型需要 352GB 記憶體,為 AMD 留出更多記憶體以適應更大的批量大小。

英偉達通常不會與AMD打架,但這次可能真的驚慌失措。

因為在AMD新聞發布會當天,Meta和Microsoft表示將購買使用AMD最新AI晶元的Instinct Mi300X,這意味著在Nvidia顯示卡缺貨的情況下,AMD應該是最優先的選擇。

下圖是研究公司 Omidia 最近的乙份報告,顯示了 NVIDIA 在 2023 年第三季度排名前 12 位的 H100 顯示卡買家:

這些大客戶可能面臨流失的風險。

習逍遙科技說,她不久前剛剛寫了一篇文章英偉達危機爆發了!一夜之間,四面楚歌,深入分析了英偉達現在面臨的對手和危機(感興趣的朋友可以移到檢視)。

1、AMD正面挑戰英偉達顯示卡霸主地位;

2、Microsoft自主研發的AI晶元,軟硬體兼得;

3、谷歌堅持用自有TPU打造下一代最強TPU

4.美國**對英偉達的限制,禁止在中國大陸銷售,將失去阿里抖音客戶;

5. OpenAI 和其他初創公司正在開發自己的 AI 晶元。

業界會等待英偉達嗎?英偉達的“顯示卡蛋糕”會吃多少?

答案可能並不樂觀,但英偉達可能仍然是最大的贏家。

相關問題答案

    如何將 NVIDIA 顯示卡驅動程式恢復到以前的版本?看完就知道了!

    NVIDIA顯示卡驅動程式是一款用於控制和優化 NVIDIA 顯示卡效能和功能的軟體。有時,使用者可能需要還原到以前版本的驅動程式,因為新版本的驅動程式可能存在相容性問題 穩定性問題或效能下降。有兩種方法可以退回驅動器 .利用系統還原功能 系統還原是 Windows 的一項內建功能,允許使用者將系統...

    AMD正式發布AI晶元,英偉達應該緊張

    amd在人工智慧中晶元該字段的開啟方式英偉達競爭之旅。近日,在 Advancingai 活動中,amd發布用於大型模型訓練和推理MIXGPU,以及 HPC 的MIAAPU。Microsoft 和meta而其他巨頭也紛紛宣布將使用amd最新的人工智慧晶元instinctmix。這一訊息引起了廣泛關注,...

    英偉達提前發布中文版顯示卡

    英偉達將於日發布搭載AD 的中文特別版顯示卡,名為GeForce RTX D,以取代限制出口的旗艦GeForce RTX 。為了解決這個問題,今年月日,由於美國出口禁令,針對英偉達高階遊戲市場的GeForce RTX 顯示卡受到限制,並決定通過降低一些規格來開發定製的GeForce RTX D顯示卡...

    英偉達RTX4090D顯示卡即將發布,功耗降至425W

    英偉達RTXD顯示卡即將登場,這款顯示卡會有哪些特點?據介紹,英偉達RTXD顯示卡將於明年月底發布,這款顯示卡的功耗將從原來的W降低到W,並且不支援超頻。英偉達的合作夥伴將在不久的將來收到用於測試的GPU。關於RTXD顯示卡的具體配置和效能,目前官方還沒有太多公布的訊息。該RTXD將配備AD GPU...

    英偉達在RTX 4090顯示卡RTX 4090D和市場禁令下的策略

    近日,RTX 顯示卡禁售的訊息引發業內廣泛關注。經過一段時間的拉鋸戰,這款頂級顯示卡在中國市場的未來似乎已經黯淡無光。不過,英偉達並不打算放棄全球最大的顯示卡市場,而是在積極尋求突破。據外媒報道,英偉達計畫推出一款名為RTX D的新顯示卡,以收復在中國市場的失地。首先,讓我們來看看這款新的RTX D...