浪潮資訊智慧型計算系統創新劉軍加速生成式AI產業發展

Mondo 科技 更新 2024-01-28

11月29日,在北京舉行的2023人工智慧計算大會(AICC)上,浪潮資訊高階副總裁劉軍在主題演講《智慧型計算系統創新加速生成式人工智慧產業發展》中分享了浪潮資訊對智慧型計算系統創新和AI產業發展的思考。

以下為演講實錄。

當前,生成式AI和大模型正在帶動算力需求的快速增長,如何通過智慧型計算系統更好地支撐AI創新和應用成為智慧型計算行業的關鍵。 為了應對生成式人工智慧的發展和挑戰,我們應該綜合考慮算力系統、人工智慧軟體基礎設施(AI Infra)、演算法模型和產業生態四個方面,從而加快智慧型產業的落地。

智慧型計算系統創新,解決生成式AI算力挑戰

在計算系統層面,生成式AI面臨的挑戰主要來自三個方面:計算、資料、互聯互通

在計算層面,算力多元化趨勢越來越明顯,導致AI算力系統開發適配周期長,定製化開發投入大,業務遷移時間長。 此外,大模型訓練需要較高的算力,在單晶元算力有限的情況下,需要構建更大的集群來獲得效能擴充套件。

在資料層面,大模型從文字、**等單模態向多模態、跨模態演進,訓練的資料集達到TB級甚至PB級,不同操作階段對資料儲存的需求呈現多元化趨勢。

在互聯層面,傳統ROCE網路由於ECMP雜湊不均勻,浪費了40%以上的網路頻寬,而高尾延導致網路通訊時間佔訓練時間的40%,大大降低了計算效率。 同時,網路是集群的共享資源,當集群規模達到一定水平時,網路效能波動會影響所有計算資源的利用率,網路故障會影響數十張甚至更多加速卡的連通性。

面對三大挑戰,浪潮資訊總結了多年的產品研發和使用者服務經驗,提出了三部分解決方案。

在計算方面,首先要採用統一的系統架構和統一的介面規範,相容多種算力的各類AI加速卡,保證晶元算力的高效釋放。 早在2024年,浪潮資訊就著力打通多個AI計算平台的設計,最新發布的G7多計算平台是業界唯一可以同時相容SXM和OAI加速卡,實現8卡全互聯、16卡全互聯和混合立方互聯系統拓撲的AI計算平台。 為保證更大規模節點擴容的效能,浪潮資訊自研的開放加速計算架構,支援PCIe、Roce等多種私有互聯協議,節點內和跨節點卡間最大互聯896GB,通過無網絡卡RDMA實現節點間高效擴容,集群效能加速率達90%以上。

在資料儲存方面,針對大模型的資料儲存需求,浪潮資訊在業界率先實現了一套同時支援檔案、物件、大資料等非結構化協議無損互訪問的集群系統,支援快閃記憶體、 磁碟、磁帶和光碟,並支援資料全生命週期的熱、溫、冷、冰四級儲存管理,並支援一套儲存架構的資料中心,真正實現資料整合和管理整合。

在網路互聯方面,浪潮資訊發布了面向生成式AI計算場景的旗艦512T高效能交換機提供高吞吐、高擴充套件、高可靠的企業級智慧型算力網路產品和解決方案,解決了傳統ROCE方案常見的有效頻寬低、尾延高、故障收斂慢等問題,大模型訓練效能提公升38%以上,效能接近infiniband, 幫助AI使用者高效釋放大模型的生產力。

AI基礎設施全棧優化:釋放多樣化算力,提公升大模型計算效率

大規模模型演算法的開發鏈很長,這意味著需要許多工程工具。 因此,除了算力系統,AI軟體基礎設施(AI Infra)也需要創新。

AIGC大模型的開發是乙個極其複雜的系統工程,即使解決了底層算力問題,仍然面臨著無法構建、不能用好的問題。 “建設不良”是指構建計算平台不僅需要伺服器、儲存、網路等硬體整合,還需要考慮不同軟硬體之間的相容性和版本選擇,以保證驅動程式和工具的適應性和穩定性“使用不良”體現在計算平台效率低下、穩定性不足、故障頻發等實際問題。

為了加速模型的生產和應用,浪潮資訊開發了AI Infra級別的大模型智慧型計算軟體棧OGAI(Open Genai Infra)。 在算力部署方面,OGAI開源了業界首個AI算力集群系統環境部署解決方案Podsys;在大規模訓練的長期保障方面,從算力排程平台層實現自動斷點訓練在多元算力接入方面,以標準化、模組化接入方式穩定接入超過40+晶元在資料治理方面,構建了基於流程、可定製的資料清洗管道,有效縮短了資料清洗時間,提高了文字審核過濾的準確性在計算效率優化方面,通過分布式並行演算法的極致優化,將千億引數模型的訓練和計算效率提公升至54%在多模型管理方面,已支援10餘種主流開源模型和元腦生態模型,實踐證明AI Infra全棧基礎軟體和工作流程的創新是多元算力高效釋放、大模型計算效率提公升的關鍵。

基礎大模型是生成式AI發展的核心支撐

目前,大模型技術正在推動生成式AI產業的快速發展,基礎大模型的關鍵能力是大模型在行業和應用中效能的核心支撐。 然而,在不斷演進的過程中,基礎大模型仍然面臨來自資料、演算法、算力等關鍵因素的挑戰和制約。

當前,在政策支援、算力水平提公升、海量資料資源、科研實力增強等利好因素的推動下,我國在基礎大模型方面取得了一定的成績,但仍需加大基礎技術的原創性突破,夯實底層模型和演算法能力。

浪潮資訊從實踐出發,加大了在模型結構創新、高質量資料準備、算力高效利用等方面的投入,並將這些技術應用於“Source 2”。0“大模型,在程式設計、推理、邏輯等方面展示先進能力。

在演算法方面,“Source 20“,提出並採用了一種新型的注意力演算法結構,有效提高了模型自然語言的表達能力和生成準確率在資料方面,“來源 20“在訓練資料**、資料增強和合成方法方面進行了全面創新,最終增強了模型的數理邏輯能力;在計算能力方面,“來源 20“採用非均勻流並行+優化器引數並行+資料並行+損耗計算阻塞的策略,大幅降低了大模型對晶元間互連頻寬的要求,讓模型訓練在”有限條件“的算力規模下實現高效率。

來源 2作為千億級基礎模型,0在業界公開評價上進行了**生成、數學問題解決、事實問答的能力測試,展現了更高階的能力表現。 為了滿足不同行業、不同場景的能力需求,浪潮資訊全面開源了“Source 2”。0“全系列大模型,以最便捷的方式支援使用者構建自己的智慧型產品和能力,結合行業特點進行框架、模型、資料的垂直整合,提高基礎大模型的準確性和可用性。

生態融合,聯合創新,加速AI應用落地

有了強大的基礎模型,就需要進一步深化應用場景。 將大模型的能力賦能到行業,需要多家廠商的深度合作。 面對複雜離散的生態和難以實現的工業AI挑戰,浪潮資訊提出元腦生態,聚合優質合作夥伴協同創新,通過“技術支援、聯合解決方案、平台共享”實現不同廠商優勢互補。

目前,元腦生態在浪潮資訊AI算力平台、AI資源平台、AI演算法平台的支援下,已對接40余家晶元廠商、400+演算法廠商、4000+系統整合商,通過多元化的算力供應、全棧AI基礎設施軟體棧、豐富的大模型經驗,實現“百機”與“千線”對接, 幫助千行百業加速生成式AI產業創新,高效釋放生產力。

智慧型算力就是創新,AIGC與數字經濟、實體經濟的深度融合將創造更多顛覆性的社會價值和經濟價值,浪潮資訊將秉持開放、共享、共建的發展理念,抓住AIGC市場機遇,共同推動人工智慧落地。

相關問題答案

    以算力為動力,浪潮通訊資訊築基,智造未來

    高質量發展是全面建設社會主義現代化國家的首要任務。浪潮通訊資訊作為浪潮集團的二級單位,堅持以高質量黨建引領企業高質量發展,以思想政治建設為首要任務,將黨的領導融入公司治理的方方面面。年,浪潮通訊資訊黨委將積極探索黨建的途徑和方法,通過主題教育 黨建共建 服務員工與客戶的 立體融合 啟用基層黨建活力。...

    劉俊巨集:美國打壓中國電池反映出乙個問題

    直截了當的訊息 美國發布了新規定,使使用中國製造或組裝的電池組件的美國電動汽車將不再有資格獲得稅收抵免。您對此有何觀察?中國現代國際關係研究院研究員劉俊巨集 這一次,為了限制中國電池相關企業在美國的市場份額,如果在美國生產的電動汽車使用被美國認為是所謂 相關經濟體 的零部件,將取消美元的補貼。儘管有...

    劉文輝率軍巧妙地打破了蔣介石在川西的決戰,中華人民共和國成立後的命運如何?

    年月中旬,蔣介石訪問四川,當時國民黨軍隊正在失勢,他仍然抱有幻想。此時,四川內部,張群 劉文輝 鄧喜侯等軍閥自顧自,蔣介石為了爭取他們的支援,授予他們爵位,並提供大量美式 月日,我軍進攻四川內陸,局勢突然緊張起來。在蔣介石的密令下,胡宗南準備在川西與我軍決戰。儘管國民黨實力不足,但蔣介石還是依靠川內...

    劉倫賢從乙個貧苦的農民家庭到少將,乙個軍事傳奇的奮鬥歷程

    煙雨朦朧,南湖畫船的人向空蕩蕩的建築走去。滾滾的人群洶湧澎湃,江山更是妖嬈。這種大膽的詩風,其實是南京軍區參謀長劉倫先大將寫的。年,第集團軍司令員換任,劉倫憲接任軍長一職,前任是南京軍區參謀長。不同尋常的是,他保留了副軍區的軍銜。劉倫先 年輕軍區副手陣地已經出現。劉倫賢出生於年月,在奉賢解放後迎來了...