事件:英偉達面向中國的AI晶元H20的“特別版”已經開放預訂。 據基層研究,單張卡的價格預計為 13-1.國內兩大廠商以4萬美元向英偉達下單,採購數萬件H20樂觀的第二季度出貨量。 H20每年的出貨量可能幾十萬件,之前市場預期應該在30萬件左右。 與此同時,英偉達的另一款中國專用晶元L20 PCIe也在測試中,即將購買。
問:H20 佔 H800 培訓的 6-7%。 原來,當H時,算力使用效率為3-4%,而新的H20增加了頻寬,形成集群的大模型的訓練效率可能比H800更好?
A:國內軟體訓練框架比較薄弱,國內軟體訓練框架是GPT10\2.基於0架構,H800的計算效能很高,但是在百萬級訓練引數方面還是沒有辦法用的,而且H800的效率非常低。 但是,就H20而言,更容易獲得訓練引數不是很高的方面,非常適合多卡堆疊和多AI伺服器的使用。
問:改進後的晶元是否更容易訓練大型模型?
答:就國內大規模模型訓練而言,不能只看硬體。 乙個是卡片,另乙個是框架。 gpt4.0 基本上涵蓋了所有國內知識,但國內 . .0不能使用,常規頻道均為10/2.0、訓練引數和效能有限。 即使 H100 有卡,也無法訓練,因為底層軟體有侷限性。 英偉達推出H20顯示卡,國內客戶購買更多顯示卡,可以達到與A100和H800相同的效率。 NV可以買更多的卡,但也符合美國的禁令,並且不會讓基於GPT20 訓練模型框架在更高的模型上訓練,這個模型也是多贏的。 NV不會完全切斷NV和中國的通訊,硬體可以給,但軟體層面被切斷了,沒有辦法使用中國千億訓練模型的框架。 不需要NV IB交換機,光模組需要400G 800G。 由於H100 AI伺服器,您可以使用400G光模組或800G(8卡為4 800G光模組)。 因為AI伺服器數量的增加,光模組的數量也會增加。 在組網方面,它是用於NV的IB交換機,以及用於正常組網的乙太網交換機。
Q:H20產品的HBM3用於3塊板,即算力是A100的30%,HBM量是一樣的?
答:單卡HBM量與H800相似,H20的CoODOS流程比800簡單。 nm越小,整合度越高,算力越強。 從H20的算力來看,設計過程一般,還不如910B的算力設計過程。 就鑄造廠而言,它們可以在一些相對較差的製造工藝中重複使用,並且成本降低了。 唯一的是 HBM,價值 3 倍。
Q:H20的NVLINK是900GB s,而H800只有400,可以實現嗎?
A:NVLink對於NV來說不是高階的,它已經很成熟了,H系列可以支援。 網路頻寬支援如此之大,可以購買更多的卡來達到,NVLink的傳輸速度可以領先。 Ascend 現在達不到的是 400g,8 張卡是連續 200 張。
問:培訓框架是什麼?
答:訓練模型由語言框架和軟體框架支援。 軟體公升級,或者說技術迭代,就國內培訓語言框架而言,軟體版本相對較低,也就是。0、海外公升級GPT 4版本 0。 API 埠不申請國內賬號試用,所以體驗不到 4內建 0 個軟體功能。 美國對A100 H100的封鎖是不願分享製造過程。
問:為什麼 H20 卡不需要 Covos 包?
答:我看到有HBM,但是CODOS在4或3nm以上,這是乙個高階封裝,所以A100 A800 H20,製造工藝沒有H100那麼高,所以封裝架構不需要CODOS,成本降低。 明年,北美對H100的需求會很旺盛,所以不會為了中國的銷量而占用包裝能力。
問:對算力租賃有何影響?
答:過去,它們大多是A-H800,但現在禁令之後,算力租賃已經停滯不前。 現在,在NV推出H20之後,可以建立算力中心和算力租賃中心。 資料中心可以通過 NVLink 和 IB 網路架構構建,使用多個 H20 和多個基於 H20 的 AI 伺服器。 大多數算力企業都是基於CUDA架構的,而H20的出現,將幫助算力租賃中心緩解資料中心建設中缺卡的局面。
問:是否理解為緩解算力短缺,限制算力漲價,對算力租賃企業不利?
答:就算力企業而言,目前處於看跌狀態。 算力租賃行業對卡的依賴程度很高,沒有生存價值。
問:H20 可以保留 NVLunk 嗎,但頻寬要求不受影響?
A:當A H100受到限制時,網路互聯頻寬受到限制。 但現在 11 月對 H800 的禁令將取消頻寬限制。 這就是美國的問題,如何不給高階卡,但又不切斷業務聯絡,多買卡,才能達到H100的業績。 NV會大驚小怪NVLink卡之間的互連,堆疊卡以提高效能是乙個很好的商業模式。
問:H20 集群的效能與 Hw 的效能相比如何?
答:伺服器卡之間的瓶頸和伺服器之間的瓶頸。 卡對卡互聯910b的互連頻寬是H20的一半,卡間互連效能降低一半。 互連伺服器,Nvidia 有乙個半點的 IB 交換機,並且沒有其他解決方案。 在國內,它是G集**的替代,計算能力的損失比較大。
Q:昇騰卡的效能可以和A100相媲美,但是在軟體上有什麼差距呢?
答:1)在軟體方面,在商業軟體方面,基礎高階軟體來自海外軟體公司。國內企業做相容性適配是非常困難的,NV在顯示卡發布前會做相應的效能相容性測試和調優,所以NV在銷售平台上的使用方面是最好的。
2)國產卡的客戶在網際網絡公司,他們不會使用商業軟體,而是開源軟體進行開發,因為每個網際網絡公司的商業使用方式不同,會做一些開發。他們利用網際網絡自研平台遷移適配國產卡,適配成本相對較低。 大家都非常關注網際網絡行業,國內晶元行業也非常關注,因為網際網絡最容易切入NV,沒有商業軟體的影響,都是自研的。 軟體開發周期比硬體開發周期長得多。
Q:17日下單後,H20訂單會有轉換嗎? 或者您想再次下新訂單?
答:禁令後,必須取消訂單,並且NV已被取消。 因此,H20的訂單是新的,不能平等地替換。
問:閹割版本有用嗎? 客戶需要多長時間才能適應服務?
答:英偉達的卡在網際網絡公司,適應小批量——大批量需要半年時間,從引入測試到小批量需要半年時間。 卡的階段是英偉達的設計完成,它自己做測試,但是沒有下級代工廠,送到網際網絡上進行介紹和測試,下面就是伺服器代工廠的小批量生產和除錯,然後小批量製作,與網際網絡同步, 並購買了半年。
Q:從訓練模型的角度來看,不管是看int8還是fp16,甚至是fp32,我都覺得說法很多,我們主要判斷國內外哪個指標的算力?
Q:主要是FP32和FP64,FP16是由於國內的設計過程,沒有辦法實現,真正看浮點運算,還是FP32和FP64。 Nvidia 基本上不做 FP16 浮點運算引數。 在國內模型框架中,FP16 仍然可以使用,但一旦訓練引數激增,就是 FP32 和 FP64。
問:與H100等先進晶元相比,NV變通方法的成本會增加多少?
答:運營成本的增加將與卡購買量的增加成正比。 舉個通俗的例子,H100卡的執行成本與H800的成本不同,卡的成本在空間、功耗、人員成本等方面都非常高。 H20與H100相比有一定的功耗,但比A100高得多,通過H20,未來大規模使用的成本將比A100高出3-4倍,比H100低。
問:H20 是否使用液體冷卻?
答:是H20風冷,液冷還是H100,750W功耗。 H20增加了2-3張卡,功耗是A100的3-4倍。
問:與原來的H800網路相比,H20網路是否會增加功耗和散熱要求?
答:H20的散熱會比H800低,因為算力和功耗低,散熱會低。
Q:現在NVIDIA已經有了相容產品,但是由於單卡算力的降低,是不是意味著同乙個算力集群需要更多的伺服器?
答:是的,H20之所以留下大量頻寬,可以讓國內使用者實現一些堆疊。
Q:假設有足夠的資源買卡,不考慮能耗,基於H20算力的集群算力能達到基於H100算力的集群算力嗎?
答:是的。
會議紀要**:溫八沽研究]小程式