2月1日,有訊息稱,螞蟻集團AI創新研發部門NextEVO全開源AI Infra技術,可幫助大模型佔千卡訓練有效時間的95%以上,並能在訓練過程中實現“自動駕駛”,提公升AI研發效率。
圖:螞蟻集團的自動化分布式深度學習系統DLROVER現已完全開源。
該技術框架名為DLROVER,旨在實現大規模分布式訓練的智慧型化。 目前,很多企業的訓練作業都是混合部署集群執行,作業環境複雜多變,無論多麼“崎嶇的地形”,DLROVER都能“輕鬆駕馭”。
2023年大模型技術的發展帶來了工程實踐的爆發,如何管理資料、提高訓練和推理效率、最大化利用現有算力成為關鍵部分。
像GPT-3這樣擁有千億引數的大模型需要32年的時間,用一張卡訓練需要32年的時間,所以訓練時算力的使用尤為重要。 一種方法是更好地利用可以使用的計算能力,例如進一步擠壓購買的 GPU 的效能; 二是利用以前無法使用的算力,如CPU、記憶體等,需要異構計算平台來解決。
DLROVER的最新整合是快閃記憶體檢查點(FCP)解決方案。 模型在訓練時,一般需要打好檢查點(checkpoints),以便在中斷時恢復到最近的狀態,但目前常規做法的缺點是時間長,減少了使用高頻點訓練的可用時間,從低頻點恢復時損失太多。 將新方案FCP應用於1000億kcal的千億引數模型訓練後,檢查點造成的訓練浪費時間減少約5倍,持久時間減少約70倍,有效訓練時間從90%提高到95%。
還整合了三種新的優化器技術。 優化器是機器學習的核心元件,用於更新神經網路引數以最小化損失函式。 其中,螞蟻金服的 AGD(具有相鄰步長梯度差的自動切換優化器)優化器加速 1AGD已在螞蟻內部多個場景應用了5次,並取得了顯著的效果,相關**已是neurips'包括 23 個。
圖:在大型模型預訓練任務中,AGD可以加速15倍)。
作為自動化分布式深度學習系統,DLROVER的“自動駕駛”功能模組還包括:ATORCH,乙個PyTorch分布式訓練擴充套件庫,在千卡級千億引數模型的規模下,可以實現高達60%的算力利用率,幫助開發者進一步擠壓硬體算力。
DLROVER使用“ML for System”的概念來提公升分布式訓練的智慧型性,旨在讓開發者完全擺脫資源分配的束縛,專注於通過系統進行模型訓練本身。 無需任何資源配置輸入,DLROVER 仍然可以為每個訓練作業提供最佳資源配置。
近日,螞蟻集團成立了人工智慧創新研發部門NextEvo,承擔螞蟻AI的全部核心技術研發,包括百靈大模型的所有研發工作,涉及AI演算法、AI工程、NLP、AIGC等核心技術,以及多模態大模型和數字人類領域的技術研發和產品創新。
同時,螞蟻集團也加快了開源步伐,填補了國內相關技術的空白,推動了人工智慧產業的快速發展。