千卡訓練有效時間佔比達95 以上，螞蟻集團AI Infra技術開源

Mondo 健康更新 2024-02-02

2月1日，有訊息稱，螞蟻集團AI創新研發部門NextEVO全開源AI Infra技術，可幫助大模型佔千卡訓練有效時間的95%以上，並能在訓練過程中實現“自動駕駛”，提公升AI研發效率。

圖：螞蟻集團的自動化分布式深度學習系統DLROVER現已完全開源。

該技術框架名為DLROVER，旨在實現大規模分布式訓練的智慧型化。目前，很多企業的訓練作業都是混合部署集群執行，作業環境複雜多變，無論多麼“崎嶇的地形”，DLROVER都能“輕鬆駕馭”。

2023年大模型技術的發展帶來了工程實踐的爆發，如何管理資料、提高訓練和推理效率、最大化利用現有算力成為關鍵部分。

像GPT-3這樣擁有千億引數的大模型需要32年的時間，用一張卡訓練需要32年的時間，所以訓練時算力的使用尤為重要。一種方法是更好地利用可以使用的計算能力，例如進一步擠壓購買的 GPU 的效能; 二是利用以前無法使用的算力，如CPU、記憶體等，需要異構計算平台來解決。

DLROVER的最新整合是快閃記憶體檢查點（FCP）解決方案。模型在訓練時，一般需要打好檢查點（checkpoints），以便在中斷時恢復到最近的狀態，但目前常規做法的缺點是時間長，減少了使用高頻點訓練的可用時間，從低頻點恢復時損失太多。將新方案FCP應用於1000億kcal的千億引數模型訓練後，檢查點造成的訓練浪費時間減少約5倍，持久時間減少約70倍，有效訓練時間從90%提高到95%。

還整合了三種新的優化器技術。優化器是機器學習的核心元件，用於更新神經網路引數以最小化損失函式。其中，螞蟻金服的 AGD（具有相鄰步長梯度差的自動切換優化器）優化器加速 1AGD已在螞蟻內部多個場景應用了5次，並取得了顯著的效果，相關**已是neurips'包括 23 個。

圖：在大型模型預訓練任務中，AGD可以加速15倍）。

作為自動化分布式深度學習系統，DLROVER的“自動駕駛”功能模組還包括：ATORCH，乙個PyTorch分布式訓練擴充套件庫，在千卡級千億引數模型的規模下，可以實現高達60%的算力利用率，幫助開發者進一步擠壓硬體算力。

DLROVER使用“ML for System”的概念來提公升分布式訓練的智慧型性，旨在讓開發者完全擺脫資源分配的束縛，專注於通過系統進行模型訓練本身。無需任何資源配置輸入，DLROVER 仍然可以為每個訓練作業提供最佳資源配置。

近日，螞蟻集團成立了人工智慧創新研發部門NextEvo，承擔螞蟻AI的全部核心技術研發，包括百靈大模型的所有研發工作，涉及AI演算法、AI工程、NLP、AIGC等核心技術，以及多模態大模型和數字人類領域的技術研發和產品創新。

同時，螞蟻集團也加快了開源步伐，填補了國內相關技術的空白，推動了人工智慧產業的快速發展。

千卡訓練有效時間佔比達95 以上，螞蟻集團AI Infra技術開源

相關問題答案

摩爾執行緒首個kilocalorie智慧型計算中心上線

你消耗多少千卡來減掉一磅

常見食物營養：梨 44大卡 100g

你知道你需要消耗多少千卡才能減掉一磅嗎？

卡布拉多如何訓練