12月19日,摩爾執行緒首個國產1000卡路里模型訓練平台——摩爾執行緒KUAE智慧型計算中心揭牌儀式在北京成功舉行,宣告首個基於國產全功能GPU的大規模算力集群正式落地。 同時,摩爾執行緒與聯合國多家合作夥伴發起成立“摩爾執行緒PES-快埃智慧型計算聯盟”和“摩爾執行緒PES-大模型生態聯盟”,共同夯實國內大模型從智慧型計算基礎設施到大模型訓練推理的一體化生態,持續加速中國大模型產業發展。
摩爾執行緒CEO張建忠在主題演講中帶來了重磅發布,包括大模型智慧型計算加速卡MTT S4000,以及為千億引數大模型的訓練和推理提供有力支撐的摩爾執行緒KUAE平台,他表示:“摩爾執行緒KUAE智慧型計算中心的正式啟用是公司發展的重要里程碑。 摩爾執行緒構建了從晶元到顯示卡再到集群的智慧型計算產品線,依託全功能GPU的多計算優勢,旨在滿足日益增長的大模型訓練和推理需求,以綠色安全的智慧型算力大力推動AIGC、數字孿生、物理、元宇宙等多模態應用落地和千行百業的高質量發展。 ”
全新智慧型計算加速卡MTT S4000:訓練與推送兼具,專為大模型設計。
MTT S4000 是第三代 MUSA 核心,單卡支援 48GB 視訊記憶體和 768GB 視訊記憶體頻寬。 基於摩爾執行緒自主研發的mtlink10技術,MTT S4000可支援多卡互聯,助力加速千億級大模型的分布式計算。 同時,MTT S4000提供先進的圖形渲染能力、先進的編解碼能力、超高清8K HDR顯示能力,助力AI計算、圖形渲染、多**等綜合應用場景的落地。
具體來說,摩爾執行緒MTT S4000的FP32算力為25 tflops,TF32的算力為50 tflops,FP16 BF16的算力為100 tflops,INT8的算力為200 tops。 與上一代MTT S3000相比,不僅記憶體容量從32GB提公升到48GB,記憶體頻寬也從448GB S提公升到768GB S,FP32算力也提公升了64%以上。 不過,與NVIDIA H100相比,MTT S4000不僅在效能上仍遠落,240GB s的晶元間互聯也明顯落後於NVIDIA H100的NVLink的900GB S頻寬。
儘管摩爾執行緒MTT S4000與英偉達H100之間仍有較大差距,但在英偉達高效能AI晶元在國內銷量有限的背景下,MTT S4000將是國內人工智慧和大型語言模型(LLM)工作負載的良好解決方案。
最重要的是,借助摩爾執行緒自主研發的Musify開發工具,MTT S4000算卡可以充分利用現有的CUDA軟體生態,實現CUDA向MUSA平台的零成本遷移。
摩爾執行緒 KUAE 智慧型計算中心解決方案:軟硬體一體化,開箱即用。
摩爾執行緒KUAE智慧型計算中心解決方案是基於全功能GPU的軟硬體一體化的全棧解決方案,包括以KUAE計算集群為核心的基礎設施、KUAE平台集群管理平台、KUAE ModelStudio模型服務,旨在以一體化交付的方式解決大規模GPU算力的建設、運營和管理問題。 該方案開箱即用,大大降低了傳統算力建設、應用開發、運維運營平台建設的時間成本,實現快速上市和商業化運營。
基礎架構:包括 KUAE 計算集群、RDMA 網路和分布式儲存。 此次發布的摩爾執行緒 KUAE kcal 模型訓練平台僅需 30 天即可搭建完成,支援 1000 億引數模型的預訓練、微調和推理,最高可實現高達 91% 的 kcal 集群效能擴充套件係數。 摩爾執行緒 KUAE 集群基於 MTT S4000 和雙路 8 卡 GPU 伺服器 MCCX D800,支援從單節點多卡到多機多卡,從單卡到千卡集群的無縫擴充套件。
快能平台是集AI大模型訓練、分布式圖形渲染、流處理、科學計算於一體的軟硬體一體化平台,深度融合全功能GPU計算、網路、儲存,提供高可靠、高算力服務。 通過平台,使用者可以靈活管理多個資料中心和集群的計算資源,整合多維度運維監控、告警、日誌系統,助力智慧型計算中心實現運維自動化。
快機模型服務:覆蓋大模型預訓練、微調、推理全流程,支援所有主流開源大模型。 通過摩爾執行緒Musify開發工具,您可以輕鬆復用CUDA應用生態,內建的容器化解決方案可實現一鍵式API部署。 該平台旨在提供大模型的生命週期管理,通過簡單易操作的互動介面,使用者可以按需組織工作流程,大大降低了使用大模型的門檻。
摩爾執行緒 KUAE kcal 集群:多重優勢,助力高效訓練大型模型。
分布式平行計算是實現AI大模型訓練的關鍵手段。 摩爾執行緒KUAE支援業界主流的分布式框架,包括DeepSpeed、Megatron-Deepspeed、Colossal-AI、Flagscale等,並整合了多種並行演算法策略,包括資料並行、張量並行、流水線並行、零,並針對高效的通訊計算並行和閃注意力進行了額外優化。
目前,摩爾執行緒支援各種主流大模型的訓練和微調,包括駱駝、glm、天鷹座、百川、gpt、bloom、yuyan等。 基於摩爾執行緒KUAE kcal集群,引數從70b到130b的大模型的線性加速度比可以達到91%,算力利用率基本保持不變。 以2000億的訓練資料量為例,智源教育的700億引數aquila2可以在33天內訓練完成乙個擁有 1300 億個引數的模型可以在 56 天內完成訓練。 此外,摩爾執行緒 KUAE kKa 集群支援長期連續穩定執行,支援斷點恢復,非同步檢查點小於 2 分鐘。
憑藉高相容性、高穩定性、高擴充套件性、高算力利用率的綜合優勢,摩爾執行緒KUAE kKak計算集群將成為堅實可靠的大模型訓練先進基礎設施。
智慧型計算與大模型生態聯盟:多方協同,推動生態融合。
在大模型時代,以GPU為代表的智慧型算力是生成式AI世界的基石和中心。 摩爾執行緒聯合中國移動北京公司、中國電信北京分公司、聯想、世紀互聯、光環新網、中聯資料、蜀道智慧型計算、中發致遠、啟尚**、北電數智北京數字經濟計算中心、紫光恆悅、瑞華實業控股(山東)、賽爾網路、中科金彩、中雲智慧型計算、錦州遠航等10余家公司(排名不分先後), 聯合宣布成立“摩爾執行緒PES-KUAE智慧型計算聯盟”。聯盟將大力打造和推廣從底層硬體到軟體、從工具到應用的國家級智慧型計算平台,旨在實現集群的高利用率,以易用易用的全棧智慧型計算解決方案成為大模型訓練的首選。
活動現場,摩爾執行緒與中聯資料、蜀道智慧型計算簽訂現場簽約,共同揭牌摩爾執行緒KUAE智慧型計算中心。 200多位嘉賓見證了這一重要時刻。
生態是人工智慧應用突破的關鍵。 為此,摩爾執行緒攜手360、槳槳、京東延溪、智翹AI、超對稱、武文新瓊、迪普科技、網易、清華大學、復旦大學、浙江大學、北京理工大學、凌雲光、瑞萊智慧、南微軟體(排名不分先後)等眾多大型模型生態合作夥伴發起並建立了“摩爾執行緒PES-大模型生態聯盟”。 摩爾執行緒將以MUSA為核心的軟硬體一體化大模型解決方案,積極與廣泛的生態合作夥伴進行相容適配和技術調優,共同推動國內大模型生態的全面繁榮。
編輯:新之尋-流氓劍**摩爾執行緒。