英偉達特別版AI晶元更新

事件：英偉達面向中國的AI晶元H20的“特別版”已經開放預訂。 據基層研究，單張卡的價格預計為 13-1.國內兩大廠商以4萬美元向英偉達下單，採購數萬件H20樂觀的第二季度出貨量。 H20每年的出貨量可能幾十萬件，之前市場預期應該在30萬件左右。與此同時，英偉達的另一款中國專用晶元L20 PCIe也在測試中，即將購買。

問：H20 佔 H800 培訓的 6-7%。原來，當H時，算力使用效率為3-4%，而新的H20增加了頻寬，形成集群的大模型的訓練效率可能比H800更好？

A：國內軟體訓練框架比較薄弱，國內軟體訓練框架是GPT10\2.基於0架構，H800的計算效能很高，但是在百萬級訓練引數方面還是沒有辦法用的，而且H800的效率非常低。但是，就H20而言，更容易獲得訓練引數不是很高的方面，非常適合多卡堆疊和多AI伺服器的使用。

問：改進後的晶元是否更容易訓練大型模型？

答：就國內大規模模型訓練而言，不能只看硬體。乙個是卡片，另乙個是框架。 gpt4.0 基本上涵蓋了所有國內知識，但國內 . .0不能使用，常規頻道均為10/2.0、訓練引數和效能有限。即使 H100 有卡，也無法訓練，因為底層軟體有侷限性。英偉達推出H20顯示卡，國內客戶購買更多顯示卡，可以達到與A100和H800相同的效率。 NV可以買更多的卡，但也符合美國的禁令，並且不會讓基於GPT20 訓練模型框架在更高的模型上訓練，這個模型也是多贏的。 NV不會完全切斷NV和中國的通訊，硬體可以給，但軟體層面被切斷了，沒有辦法使用中國千億訓練模型的框架。不需要NV IB交換機，光模組需要400G 800G。由於H100 AI伺服器，您可以使用400G光模組或800G（8卡為4 800G光模組）。因為AI伺服器數量的增加，光模組的數量也會增加。在組網方面，它是用於NV的IB交換機，以及用於正常組網的乙太網交換機。

Q：H20產品的HBM3用於3塊板，即算力是A100的30%，HBM量是一樣的？

答：單卡HBM量與H800相似，H20的CoODOS流程比800簡單。 nm越小，整合度越高，算力越強。從H20的算力來看，設計過程一般，還不如910B的算力設計過程。就鑄造廠而言，它們可以在一些相對較差的製造工藝中重複使用，並且成本降低了。唯一的是 HBM，價值 3 倍。

Q：H20的NVLINK是900GB s，而H800只有400，可以實現嗎？

A：NVLink對於NV來說不是高階的，它已經很成熟了，H系列可以支援。網路頻寬支援如此之大，可以購買更多的卡來達到，NVLink的傳輸速度可以領先。 Ascend 現在達不到的是 400g，8 張卡是連續 200 張。

問：培訓框架是什麼？

答：訓練模型由語言框架和軟體框架支援。軟體公升級，或者說技術迭代，就國內培訓語言框架而言，軟體版本相對較低，也就是。0、海外公升級GPT 4版本 0。 API 埠不申請國內賬號試用，所以體驗不到 4內建 0 個軟體功能。美國對A100 H100的封鎖是不願分享製造過程。

問：為什麼 H20 卡不需要 Covos 包？

答：我看到有HBM，但是CODOS在4或3nm以上，這是乙個高階封裝，所以A100 A800 H20，製造工藝沒有H100那麼高，所以封裝架構不需要CODOS，成本降低。明年，北美對H100的需求會很旺盛，所以不會為了中國的銷量而占用包裝能力。

問：對算力租賃有何影響？

答：過去，它們大多是A-H800，但現在禁令之後，算力租賃已經停滯不前。現在，在NV推出H20之後，可以建立算力中心和算力租賃中心。資料中心可以通過 NVLink 和 IB 網路架構構建，使用多個 H20 和多個基於 H20 的 AI 伺服器。大多數算力企業都是基於CUDA架構的，而H20的出現，將幫助算力租賃中心緩解資料中心建設中缺卡的局面。

問：是否理解為緩解算力短缺，限制算力漲價，對算力租賃企業不利？

答：就算力企業而言，目前處於看跌狀態。算力租賃行業對卡的依賴程度很高，沒有生存價值。

問：H20 可以保留 NVLunk 嗎，但頻寬要求不受影響？

A：當A H100受到限制時，網路互聯頻寬受到限制。但現在 11 月對 H800 的禁令將取消頻寬限制。這就是美國的問題，如何不給高階卡，但又不切斷業務聯絡，多買卡，才能達到H100的業績。 NV會大驚小怪NVLink卡之間的互連，堆疊卡以提高效能是乙個很好的商業模式。

問：H20 集群的效能與 Hw 的效能相比如何？

答：伺服器卡之間的瓶頸和伺服器之間的瓶頸。卡對卡互聯910b的互連頻寬是H20的一半，卡間互連效能降低一半。互連伺服器，Nvidia 有乙個半點的 IB 交換機，並且沒有其他解決方案。在國內，它是G集**的替代，計算能力的損失比較大。

Q：昇騰卡的效能可以和A100相媲美，但是在軟體上有什麼差距呢？

答：1）在軟體方面，在商業軟體方面，基礎高階軟體來自海外軟體公司。國內企業做相容性適配是非常困難的，NV在顯示卡發布前會做相應的效能相容性測試和調優，所以NV在銷售平台上的使用方面是最好的。

2）國產卡的客戶在網際網絡公司，他們不會使用商業軟體，而是開源軟體進行開發，因為每個網際網絡公司的商業使用方式不同，會做一些開發。他們利用網際網絡自研平台遷移適配國產卡，適配成本相對較低。大家都非常關注網際網絡行業，國內晶元行業也非常關注，因為網際網絡最容易切入NV，沒有商業軟體的影響，都是自研的。軟體開發周期比硬體開發周期長得多。

Q：17日下單後，H20訂單會有轉換嗎？或者您想再次下新訂單？

答：禁令後，必須取消訂單，並且NV已被取消。因此，H20的訂單是新的，不能平等地替換。

問：閹割版本有用嗎？客戶需要多長時間才能適應服務？

答：英偉達的卡在網際網絡公司，適應小批量——大批量需要半年時間，從引入測試到小批量需要半年時間。卡的階段是英偉達的設計完成，它自己做測試，但是沒有下級代工廠，送到網際網絡上進行介紹和測試，下面就是伺服器代工廠的小批量生產和除錯，然後小批量製作，與網際網絡同步，並購買了半年。

Q：從訓練模型的角度來看，不管是看int8還是fp16，甚至是fp32，我都覺得說法很多，我們主要判斷國內外哪個指標的算力？

Q：主要是FP32和FP64，FP16是由於國內的設計過程，沒有辦法實現，真正看浮點運算，還是FP32和FP64。 Nvidia 基本上不做 FP16 浮點運算引數。在國內模型框架中，FP16 仍然可以使用，但一旦訓練引數激增，就是 FP32 和 FP64。

問：與H100等先進晶元相比，NV變通方法的成本會增加多少？

答：運營成本的增加將與卡購買量的增加成正比。舉個通俗的例子，H100卡的執行成本與H800的成本不同，卡的成本在空間、功耗、人員成本等方面都非常高。 H20與H100相比有一定的功耗，但比A100高得多，通過H20，未來大規模使用的成本將比A100高出3-4倍，比H100低。

問：H20 是否使用液體冷卻？

答：是H20風冷，液冷還是H100,750W功耗。 H20增加了2-3張卡，功耗是A100的3-4倍。

問：與原來的H800網路相比，H20網路是否會增加功耗和散熱要求？

答：H20的散熱會比H800低，因為算力和功耗低，散熱會低。

Q：現在NVIDIA已經有了相容產品，但是由於單卡算力的降低，是不是意味著同乙個算力集群需要更多的伺服器？

答：是的，H20之所以留下大量頻寬，可以讓國內使用者實現一些堆疊。

Q：假設有足夠的資源買卡，不考慮能耗，基於H20算力的集群算力能達到基於H100算力的集群算力嗎？

答：是的。

會議紀要**：溫八沽研究]小程式

英偉達特別版AI晶元更新

相關問題答案

英偉達已開放華特AI晶元預購，價格接近華為昇騰910B

華為AI晶元火爆，英偉達著急，GPU打折打壓華為？

華為AI晶元火熱，英偉達著急，調優GPU價格打壓華為？

華為AI晶元，售罄！英偉達“中國專用AI晶元”反彈？

英偉達中國專用AI晶元開始預購，價格曝光