11月29日,在北京舉行的2023人工智慧計算大會(AICC)上,浪潮資訊高階副總裁劉軍在主題演講《智慧型計算系統創新加速生成式人工智慧產業發展》中分享了浪潮資訊對智慧型計算系統創新和AI產業發展的思考。
以下為演講實錄。
當前,生成式AI和大模型正在帶動算力需求的快速增長,如何通過智慧型計算系統更好地支撐AI創新和應用成為智慧型計算行業的關鍵。 為了應對生成式人工智慧的發展和挑戰,我們應該綜合考慮算力系統、人工智慧軟體基礎設施(AI Infra)、演算法模型和產業生態四個方面,從而加快智慧型產業的落地。
智慧型計算系統創新,解決生成式AI算力挑戰
在計算系統層面,生成式AI面臨的挑戰主要來自三個方面:計算、資料、互聯互通
在計算層面,算力多元化趨勢越來越明顯,導致AI算力系統開發適配周期長,定製化開發投入大,業務遷移時間長。 此外,大模型訓練需要較高的算力,在單晶元算力有限的情況下,需要構建更大的集群來獲得效能擴充套件。
在資料層面,大模型從文字、**等單模態向多模態、跨模態演進,訓練的資料集達到TB級甚至PB級,不同操作階段對資料儲存的需求呈現多元化趨勢。
在互聯層面,傳統ROCE網路由於ECMP雜湊不均勻,浪費了40%以上的網路頻寬,而高尾延導致網路通訊時間佔訓練時間的40%,大大降低了計算效率。 同時,網路是集群的共享資源,當集群規模達到一定水平時,網路效能波動會影響所有計算資源的利用率,網路故障會影響數十張甚至更多加速卡的連通性。
面對三大挑戰,浪潮資訊總結了多年的產品研發和使用者服務經驗,提出了三部分解決方案。
在計算方面,首先要採用統一的系統架構和統一的介面規範,相容多種算力的各類AI加速卡,保證晶元算力的高效釋放。 早在2024年,浪潮資訊就著力打通多個AI計算平台的設計,最新發布的G7多計算平台是業界唯一可以同時相容SXM和OAI加速卡,實現8卡全互聯、16卡全互聯和混合立方互聯系統拓撲的AI計算平台。 為保證更大規模節點擴容的效能,浪潮資訊自研的開放加速計算架構,支援PCIe、Roce等多種私有互聯協議,節點內和跨節點卡間最大互聯896GB,通過無網絡卡RDMA實現節點間高效擴容,集群效能加速率達90%以上。
在資料儲存方面,針對大模型的資料儲存需求,浪潮資訊在業界率先實現了一套同時支援檔案、物件、大資料等非結構化協議無損互訪問的集群系統,支援快閃記憶體、 磁碟、磁帶和光碟,並支援資料全生命週期的熱、溫、冷、冰四級儲存管理,並支援一套儲存架構的資料中心,真正實現資料整合和管理整合。
在網路互聯方面,浪潮資訊發布了面向生成式AI計算場景的旗艦512T高效能交換機提供高吞吐、高擴充套件、高可靠的企業級智慧型算力網路產品和解決方案,解決了傳統ROCE方案常見的有效頻寬低、尾延高、故障收斂慢等問題,大模型訓練效能提公升38%以上,效能接近infiniband, 幫助AI使用者高效釋放大模型的生產力。
AI基礎設施全棧優化:釋放多樣化算力,提公升大模型計算效率
大規模模型演算法的開發鏈很長,這意味著需要許多工程工具。 因此,除了算力系統,AI軟體基礎設施(AI Infra)也需要創新。
AIGC大模型的開發是乙個極其複雜的系統工程,即使解決了底層算力問題,仍然面臨著無法構建、不能用好的問題。 “建設不良”是指構建計算平台不僅需要伺服器、儲存、網路等硬體整合,還需要考慮不同軟硬體之間的相容性和版本選擇,以保證驅動程式和工具的適應性和穩定性“使用不良”體現在計算平台效率低下、穩定性不足、故障頻發等實際問題。
為了加速模型的生產和應用,浪潮資訊開發了AI Infra級別的大模型智慧型計算軟體棧OGAI(Open Genai Infra)。 在算力部署方面,OGAI開源了業界首個AI算力集群系統環境部署解決方案Podsys;在大規模訓練的長期保障方面,從算力排程平台層實現自動斷點訓練在多元算力接入方面,以標準化、模組化接入方式穩定接入超過40+晶元在資料治理方面,構建了基於流程、可定製的資料清洗管道,有效縮短了資料清洗時間,提高了文字審核過濾的準確性在計算效率優化方面,通過分布式並行演算法的極致優化,將千億引數模型的訓練和計算效率提公升至54%在多模型管理方面,已支援10餘種主流開源模型和元腦生態模型,實踐證明AI Infra全棧基礎軟體和工作流程的創新是多元算力高效釋放、大模型計算效率提公升的關鍵。
基礎大模型是生成式AI發展的核心支撐
目前,大模型技術正在推動生成式AI產業的快速發展,基礎大模型的關鍵能力是大模型在行業和應用中效能的核心支撐。 然而,在不斷演進的過程中,基礎大模型仍然面臨來自資料、演算法、算力等關鍵因素的挑戰和制約。
當前,在政策支援、算力水平提公升、海量資料資源、科研實力增強等利好因素的推動下,我國在基礎大模型方面取得了一定的成績,但仍需加大基礎技術的原創性突破,夯實底層模型和演算法能力。
浪潮資訊從實踐出發,加大了在模型結構創新、高質量資料準備、算力高效利用等方面的投入,並將這些技術應用於“Source 2”。0“大模型,在程式設計、推理、邏輯等方面展示先進能力。
在演算法方面,“Source 20“,提出並採用了一種新型的注意力演算法結構,有效提高了模型自然語言的表達能力和生成準確率在資料方面,“來源 20“在訓練資料**、資料增強和合成方法方面進行了全面創新,最終增強了模型的數理邏輯能力;在計算能力方面,“來源 20“採用非均勻流並行+優化器引數並行+資料並行+損耗計算阻塞的策略,大幅降低了大模型對晶元間互連頻寬的要求,讓模型訓練在”有限條件“的算力規模下實現高效率。
來源 2作為千億級基礎模型,0在業界公開評價上進行了**生成、數學問題解決、事實問答的能力測試,展現了更高階的能力表現。 為了滿足不同行業、不同場景的能力需求,浪潮資訊全面開源了“Source 2”。0“全系列大模型,以最便捷的方式支援使用者構建自己的智慧型產品和能力,結合行業特點進行框架、模型、資料的垂直整合,提高基礎大模型的準確性和可用性。
生態融合,聯合創新,加速AI應用落地
有了強大的基礎模型,就需要進一步深化應用場景。 將大模型的能力賦能到行業,需要多家廠商的深度合作。 面對複雜離散的生態和難以實現的工業AI挑戰,浪潮資訊提出元腦生態,聚合優質合作夥伴協同創新,通過“技術支援、聯合解決方案、平台共享”實現不同廠商優勢互補。
目前,元腦生態在浪潮資訊AI算力平台、AI資源平台、AI演算法平台的支援下,已對接40余家晶元廠商、400+演算法廠商、4000+系統整合商,通過多元化的算力供應、全棧AI基礎設施軟體棧、豐富的大模型經驗,實現“百機”與“千線”對接, 幫助千行百業加速生成式AI產業創新,高效釋放生產力。
智慧型算力就是創新,AIGC與數字經濟、實體經濟的深度融合將創造更多顛覆性的社會價值和經濟價值,浪潮資訊將秉持開放、共享、共建的發展理念,抓住AIGC市場機遇,共同推動人工智慧落地。