千卡訓練有效時間佔比達95 以上,螞蟻集團AI Infra技術開源

Mondo 健康 更新 2024-02-02

2月1日,有訊息稱,螞蟻集團AI創新研發部門NextEVO全開源AI Infra技術,可幫助大模型佔千卡訓練有效時間的95%以上,並能在訓練過程中實現“自動駕駛”,提公升AI研發效率。

圖:螞蟻集團的自動化分布式深度學習系統DLROVER現已完全開源。

該技術框架名為DLROVER,旨在實現大規模分布式訓練的智慧型化。 目前,很多企業的訓練作業都是混合部署集群執行,作業環境複雜多變,無論多麼“崎嶇的地形”,DLROVER都能“輕鬆駕馭”。

2023年大模型技術的發展帶來了工程實踐的爆發,如何管理資料、提高訓練和推理效率、最大化利用現有算力成為關鍵部分。

像GPT-3這樣擁有千億引數的大模型需要32年的時間,用一張卡訓練需要32年的時間,所以訓練時算力的使用尤為重要。 一種方法是更好地利用可以使用的計算能力,例如進一步擠壓購買的 GPU 的效能; 二是利用以前無法使用的算力,如CPU、記憶體等,需要異構計算平台來解決。

DLROVER的最新整合是快閃記憶體檢查點(FCP)解決方案。 模型在訓練時,一般需要打好檢查點(checkpoints),以便在中斷時恢復到最近的狀態,但目前常規做法的缺點是時間長,減少了使用高頻點訓練的可用時間,從低頻點恢復時損失太多。 將新方案FCP應用於1000億kcal的千億引數模型訓練後,檢查點造成的訓練浪費時間減少約5倍,持久時間減少約70倍,有效訓練時間從90%提高到95%。

還整合了三種新的優化器技術。 優化器是機器學習的核心元件,用於更新神經網路引數以最小化損失函式。 其中,螞蟻金服的 AGD(具有相鄰步長梯度差的自動切換優化器)優化器加速 1AGD已在螞蟻內部多個場景應用了5次,並取得了顯著的效果,相關**已是neurips'包括 23 個。

圖:在大型模型預訓練任務中,AGD可以加速15倍)。

作為自動化分布式深度學習系統,DLROVER的“自動駕駛”功能模組還包括:ATORCH,乙個PyTorch分布式訓練擴充套件庫,在千卡級千億引數模型的規模下,可以實現高達60%的算力利用率,幫助開發者進一步擠壓硬體算力。

DLROVER使用“ML for System”的概念來提公升分布式訓練的智慧型性,旨在讓開發者完全擺脫資源分配的束縛,專注於通過系統進行模型訓練本身。 無需任何資源配置輸入,DLROVER 仍然可以為每個訓練作業提供最佳資源配置。

近日,螞蟻集團成立了人工智慧創新研發部門NextEvo,承擔螞蟻AI的全部核心技術研發,包括百靈大模型的所有研發工作,涉及AI演算法、AI工程、NLP、AIGC等核心技術,以及多模態大模型和數字人類領域的技術研發和產品創新。

同時,螞蟻集團也加快了開源步伐,填補了國內相關技術的空白,推動了人工智慧產業的快速發展。

相關問題答案

    摩爾執行緒首個kilocalorie智慧型計算中心上線

    北京商報 記者 王維一 月日,摩爾執行緒推出全國首個萬卡路里模型訓練平台 摩爾執行緒KUE智慧型計算中心 此外,還發布了大型號智慧型計算加速卡MTT S。據悉,摩爾執行緒成立於年月,是一家專注於GPU 圖形處理單元 晶元設計的高科技積體電路公司。此前,摩爾執行緒被美國列入AI晶元實體名單。據摩爾執行...

    你消耗多少千卡來減掉一磅

    減掉一磅要消耗多少千卡熱量,是很多人關心的問題。事實上,減掉一磅需要消耗的千卡數並不是乙個固定的值,而是受到多種因素的影響。首先,我們必須明白,減掉一磅並不意味著你真的減掉了 克純脂肪。在減肥期間,您可能會失去水分 肌肉和其他組織。因此,減掉一磅所消耗的千卡數可能遠大於 千卡。其次,每個人的基礎代謝...

    常見食物營養:梨 44大卡 100g

    梨的可食用部分每 克梨產生約 大卡 GI 值為 的梨是低 GI 食物,GL 值為 梨清涼可清熱鎮靜,常食可使血壓恢復正常,改善頭暈 頭暈等症狀。梨可促進食慾,幫助消化,具有利尿 通便和解熱作用,高溫時可用於補充水分和養分。梨味甘微酸,性涼,入肺胃經,有清熱解毒 化痰 止咳 化痰的功效。因此,吃梨對肺...

    你知道你需要消耗多少千卡才能減掉一磅嗎?

    在減掉一磅需要燃燒多少千卡的問題中,我們需要首先了解減掉一磅所涉及的能量變化。減掉一磅意味著減掉 克體重,這相當於燃燒 大卡的能量。那麼,我們如何計算我們需要消耗多少千卡才能減掉一磅呢?當我們燃燒一定量的能量時,身體會消耗脂肪來提供這部分能量。換句話說,減掉一磅實際上是身體通過燃燒脂肪來減肥的過程。...

    卡布拉多如何訓練

    Cabrado 是一種聰明 活潑 友好 忠誠且易於訓練的犬種。以下是有關cabrador培訓的一些基本資訊 建立關係 在開始訓練之前,需要與 Cabrado 建立牢固的關係。這可以通過給予它足夠的關注 愛和互動來實現。確定密碼 使用清晰 簡潔的密碼來指導 Cabrador。密碼應與Cabrador的...