今年以來,以ChatGPT為代表的AI模型的出現,標誌著乙個新時代的開始。 大模型技術的快速迭代催生了Midjourney、Character等多項技術的誕生人工智慧和其他型別的AIGC(人工智慧生成內容)應用為辦公、電子商務、教育、醫療保健和法律領域帶來了革命性的變化。
複雜的AI演算法需要大量的計算資源來實現,而算力是支撐AI演算法執行的基礎。 AI晶元是專門用於處理AI計算相關任務的協處理器,為AI演算法提供高效的計算能力,顯著提高深度學習習等AI演算法模型的訓練和推理效率。
隨著AIGC產業的發展,對算力的需求不斷增加,但我國在算力領域面臨諸多挑戰。
2024年10月17日,美國商務部工業與安全域性(BIS)公布了最新的半導體管制規則(“新1017條款”),公升級了BIS於2024年10月7日發布的“對出口到中國的先進計算和半導體製造專案的新出口管制”(“107規則”)。 1017新規分為三部分:一是調整先進計算晶元出口管制規則,二是調整半導體製造裝置出口管制規則三是公布實體清單新增企業名單。 GPU晶元出口,包括A100、H100、A800、H800等,將受到影響。 A100 和 H100 是 NVIDIA 的高效能 GPU,廣泛應用於 AI、資料分析等工作場景。 A800和H800是A100和H100的替代品,也就是說,根據去年的美國107規則,英偉達為中國大陸市場提供了降低的傳輸速率以符合規定,但在今年新的1017規定之後被禁止。 以上產品是目前最適合AI演算法開發和部署的高算力晶元。
中國對人工智慧領域的算力需求旺盛,依靠高效能的人工智慧晶元來支援其應用和研究。 新規1017取消了“互連頻寬”的引數限制,增加了“效能密度”的引數限制。 新規旨在進一步縮小高階計算晶元的出口範圍;在大規模人工智慧時代,限制中國的算力將限制AIGC在中國的發展和創新。
本文將逐一說明中國算力面臨的主要挑戰,包括晶元架構效能提公升的瓶頸、現有晶元算力利用不足、美國出口管制帶來的**鏈風險等。 然後,分析破局策略,在軟體中對模型和演算法進行優化,降低算力需求在硬體上開發新架構,提高AI晶元的能效比將軟硬體協同整合在系統中,提高系統效率,降低能耗產業方面,加強生態鏈建設和多方合作,促進聯合投資。
AIGC迭代加速
目前,我國大型模型技術仍處於研發和迭代的早期階段,但產業潛力巨大。 中國高校、網際網絡科技公司、初創科技公司都加入了AI模型的浪潮,各類模型誕生了100多個。
根據艾瑞諮詢**的資料,2024年中國AIGC產業規模將達到143億元,未來幾年將快速增長。 預計到2024年,我國AIGC產業規模將達到7202億元,該技術將在重點領域和關鍵場景落地。
AIGC技術在NLP(自然語言處理)和CV(計算機視覺)領域經歷了重大發展。 AIGC技術和能力的提公升將為各行業帶來更多的創新和應用機會,主要體現在以下幾個方面:
從單任務到多工。 最初的 AIGC 技術專注於單個任務,例如自然語言生成、影象生成和翻譯。 然而,未來的趨勢是訓練模型同時處理多個任務,提高模型的泛化能力。
從單式聯運到多式聯運。 單模態生成模型通常專注於一種型別的資料,例如文字或影象。 多模態生成模型可以同時處理多種資料型別,如文字和影象的聯合生成,為增強現實、智慧型對話系統、自動文件生成等多個領域的應用帶來新的機遇。
從通用模型到垂直模型。 通用生成模型在各個領域都表現出色,但未來的趨勢是朝著更大的專業化和垂直化方向發展。
計算能力不足**
隨著AIGC的發展,模型越來越複雜,引數數量不斷增加,導致算力需求的增長速度遠遠超過晶元的效能增長速度。 在AIGC演算法模型部署的早期階段,算力消耗主要集中在大模型訓練上,但隨著大模型使用者的增長,推理成本將成為主要的算力支出。
AIGC對算力的具體要求體現在三個典型應用場景中:
如果谷歌使用 GPT 等大模型來推薦搜尋:根據 GPT-4 API 0 的資料,谷歌每天收到 35 億個搜尋請求對於14元**,谷歌每年需要支付1788億元的API費用。 如果使用自建計算集群,需要提供每秒10萬次左右的峰值訪問能力,一輪GPT-4對話涉及超過20萬億次浮點運算,當計算資源利用率在60%左右時,大約需要10萬個A100集群。
如果每個 Microsoft Office 使用者都使用大模型進行辦公:Microsoft 使用基於大模型的 Copilot 來賦能辦公軟體、作業系統和編輯場景,這有可能重構未來的辦公場景。 未來,軟體開發、文案寫作、藝術創作等都將在與AI頻繁的互動對話中完成。 根據一家資訊科技研究公司發布的《中國資料分析和人工智慧技術成熟度曲線》報告,中國學生和白領達到28億人,按每人每天10次就診的需求計算,有102 萬億接入需求需要 80,000 個 A100 算力。
如果每個人都有乙個定製化的AI個人助理(大規模的原生應用),AI個人助理可以為中國12億網際網絡使用者提供定製化的教育、醫療、政務、財務管理等服務。 在人均日就訪10次的情況下,需要34萬A100算力。
根據AMD全球CEO(CEO)蘇姿丰在AMD2024年主題演講中,從單一算力中心來看,超級計算機在過去十年中發展迅速,晶元架構的創新和製造工藝的進步使計算機效能每12年內翻了一番。 計算機的能源效率(即每單位能量的計算次數)僅以 2 的速度增長2年內翻了一番。 如果這種趨勢繼續下去,到2024年,一台高效能超級計算機的功率將達到500MW,大約是核電站功率的一半。
AIGC嚴重依賴高算力,但目前中國在算力方面面臨巨大挑戰。
1)驅動晶元效能的摩爾定律難以維持。
半導體器件的尺寸正在接近物理極限,工藝進步帶來的效能提公升正在縮小。 晶元能效比增速明顯放緩,更高的電晶體密度也帶來了更大的散熱挑戰和更低的產量。 目前,AIGC對算力的需求遠遠超過AI晶元的開發速度,現有晶元硬體效能的提公升速度難以滿足演算法模型快速增長的算力需求,需要新的硬體架構突破。
2) GPU利用率低。
當大模型處理大量資料時,由於算力排程、系統架構、演算法優化等諸多問題,導致許多大模型企業GPU算力利用率不足50%,造成巨大浪費。
3)軟體生態系統不成熟。
自2024年成立以來,英偉達的CUDA軟體已經形成了乙個成熟的生態系統,包括驅動、編譯、框架、庫、程式設計模型等。 目前主流的AIGC演算法訓練大多基於CUDA生態,壁壘極強。 如果AIGC想要取代NVIDIA GPU,將面臨極高的遷移成本和穩定性風險。 因此,國產GPGPU產品要想大規模部署,軟體生態是一大挑戰。
4)高效能AI晶元數量不足。
大算力晶元是大模型研發的基礎設施,英偉達的高效能GPU晶元具有兩大核心優勢:一是更大的記憶體配置和通訊頻寬。 高頻寬晶元之間的互聯互通對於提高大模型的訓練效率至關重要。 二是大模型訓練的耐久性更高。 消費級顯示卡針對的是個人應用,故障率和穩定性都比伺服器版差很多。 千億級引數的大模型訓練,需要上千個GPU長期同步執行,任何單塊顯示卡的故障都需要中斷訓練和硬體維護。 與消費級顯示卡或其他晶元相比,高效能GPU可以縮短60%-90%的大模型訓練週期。
然而,英偉達的GPU產能不足,美國正在逐步加大對中國銷售高效能晶元的禁令。 去年10月,美國對出口到中國的AI晶元實施了頻寬速率限制,包括英偉達A100和H100晶元。 從那時起,英偉達向中國公司提供了A800和H800的替代版本。 根據新的1017規定,英偉達向中國出口的晶元,包括A800和H800,將受到影響,國產高效能AI晶元將出現嚴重短缺。
目前,大模型訓練主要依靠英偉達的高效能GPU,禁售對國內大模型研發進度影響較大。 例如,如果使用符合 1017 規定的 V100 GPU 來替代 A100,計算能力和頻寬的降低會使大型模型的訓練時間增加 3 到 6 倍,視訊記憶體的減少也會使可以訓練模型的最大引數數減少 2 個5次。
5)自研AI晶元難以量產。美國已將先進晶元的出口許可證要求提高到22個國家。 繼此前對EUV光刻機出口中國的限制之後,對低代DUV光刻機的限制也開始了。 此外,美國商務部已將中國領先的本土GPU晶元公司列入實體清單,這將使國產自研晶元難以採用最新工藝進行流片量產。
6)由於能耗高而對電力系統造成壓力。
計算中心的計算、冷卻、通訊設施都是高耗能的硬體。 據中國電子節能技術協會資料顯示,目前我國資料中心用電量平均增速超過12%,2024年我國資料中心用電量將達到2700億千瓦時,占全社會用電量的3%。 在大模型時代,我國資料中心的用電量將增加,預計到2024年將達到4200億度,約佔社會總用電量的5%。 資料中心的電源**,以及系統的散熱,都會給現有的電力系統帶來很大的壓力。
技術如何打破遊戲規則?
面對不利的形勢,中國算力瓶頸需要有計畫,用乙個系統概念逐步突破,主要包括技術和產業兩個層面,主要以“開源”和“節流”的形式。
在技術層面上,我們的建議如下:
1)開發高效的大型模型。
通過簡化模型引數來減少對計算能力的需求。 壓縮是智慧型,大型模型旨在無失真壓縮資料。 今年 2 月 28 日,OpenAI 核心研發人員 Jack Rae 表示,通用 AI(AGI)的目標是實現有效資訊的最大無失真壓縮。 隨著大模型的發展,在AI複雜度增加的同時,演算法模型的能力將在相同的引數尺度上不斷提高。 未來可能會出現資訊壓縮效率更高的大模型,可以獲得媲美GPT-4的數百億引數演算法能力。
此外,大模型可以適應特定的業務場景和選擇的能力,以降低算力支出。 例如,在政府問答方案中,模型可以拒絕回答非業務請求。 只能依靠 1000 億引數通用模型才能解決的任務,有望使用 100 億引數模型完成。
2)基於現有模型的軟體優化。
如果將 GPT-3 之前和之後的 AI 開發分為 10 與 20 次,然後 AI 1 次0時代軟體優化的核心任務是使深度學習習模型能夠執行在邊緣和裝置側的低功耗裝置上,實現自動化和智慧型化,並在AIoT、智慧型安防、智慧型汽車等領域大面積應用。 和人工智慧 20時代的模型壓縮是大規模、集中式算力需求的整體優化,應用場景需要從“中心”側開始,然後輻射到邊緣側和端側。
模型壓縮是降低演算法算力要求的最直接方式0時代的技術在AI20時代也將得到繼承和發展。
剪枝利用深度學習習模型引數的冗餘性,修剪對精度影響不大的權重,保留網路骨幹,降低整體計算成本。 在 AI2 中在0時代,在長序列輸入的情況下,Transformer演算法模型計算時延的瓶頸在於注意力機制運算元,通過裁剪注意力機制運算元的啟用值可以實現2倍的端到端加速比,未來有望進一步加速。
引數量化利用GPU處理定點的等效算力明顯高於浮點算力的事實,用16位、8位、4個特定點來替代32位浮點數,有望同時降低對推理算力的需求。
運算元融合將多個運算元融合為乙個運算元,提高中間張量資料的訪問區域性性,減少記憶體訪問,解決記憶體訪問瓶頸。 運算元迴圈空間的設計和優化通過並行排列計算圖中的運算元節點,提高了整體計算的並行性。
總之,通過對現有的大模型進行壓縮和量化,可以顯著減少模型引數的數量,降低模型的計算複雜度,節省儲存空間,計算效率可以提高2-3倍。 模型優化技術在降低大模型響應使用者延遲的同時,可以在汽車、個人電腦、手機、AIoT等邊緣和裝置裝置中高效部署大模型,支援本地大模型應用,具有高實時性、私隱保護和安全性。
3)高能效、高算力密度的新型架構晶元。
傳統計算晶元的能效已經達到瓶頸,需要改進晶元架構、互聯互通、封裝等,以實現更高的能效。 目前主要的方法有資料流架構、儲存計算一體化、小晶元技術等。
資料流架構:計算順序由資料流順序控制,消除指令操作帶來的額外時間開銷。 資料流架構在併行執行資料訪問和資料計算的同時,實現了高效的流水線操作,進一步減少了計算單元的閒置時間,充分利用了晶元的計算資源。 一種資料流體系結構,不同於使用專用資料通道連線不同型別的高度優化計算模組的指令集體系結構。 採用分布式本地儲存,資料讀寫和計算同時進行,節省資料傳輸時間和計算時間。
存算一體化:存算一體化晶元的核心是將儲存與計算充分融合,利用新興的儲存器件和儲存陣列電路結構設計,將儲存與計算功能整合在同一儲存晶元上,省去了儲存和計算單元中矩陣資料的資料傳輸,從而在智慧型演算法中高效支援矩陣計算, 並在同一過程中大大提高了計算晶元的“效能密度”。
Chiplet技術:傳統的積體電路將大量的電晶體整合到矽襯底上的二維平面中,形成晶元。 整合晶元是指將電晶體等元器件整合製造成具有特定功能的小晶元,然後根據應用要求,通過半導體技術將晶元整合製造成晶元。 Chiplet技術可以實現更大的晶元面積,提高總算力通過小晶元IP的復用和組合等,提高晶元的設計效率將大晶元拆分為多個小晶元,以提高良率並降低成本不同的工藝可以製備不同的芯,通過異構化可以達到更高的效能。
新的計算架構可以打破現有晶元的儲存壁壘和互聯壁壘,連線更多高密度、高效率、低功耗的算力單元,大大提高異構核心之間的傳輸速率,降低資料訪問功耗和成本,為大模型提供高算力保障。
4)軟硬體協同優化,提高計算系統利用率。
在大型模型系統中,硬體和軟體協作對於實現高效能和高能效至關重要。 通過稀疏+混合精度+多元運算元的高效架構設計、演算法優化、系統資源管理、軟體框架與硬體平台協同、系統監控調優等,可以更好地發揮整個計算系統的優勢。
在大模型訓練方面,由於訓練需要巨大的算力和儲存開銷,多卡互聯的高效能集群計算系統是大模型訓練的必然方式。 英偉達高效能GPU的一流鏈在國內受到限制,單卡國產化晶元的效能受到工藝的限制。 除了增加計算系統的規模外,還需要開展軟硬體協同的高效微調方案研究,以降低大模型訓練和微調的硬體資源開銷。
在大型模型系統中,有效的系統資源管理對於確保高效能和高效率至關重要。 這包括分配計算資源(例如 CPU、GPU 等)、優化記憶體管理和資料傳輸策略以減少延遲和提高吞吐量。
為了實現軟硬體協同,DeepLearning 習的軟體框架需要與硬體平台緊密配合。 這包括針對特定硬體平台進行優化,以充分利用其計算能力和儲存資源,以及提供易於使用的 API 和工具來簡化模型訓練和部署過程。
5)構建異構計算平台。
由於AI演算法模型引數數量和計算複雜度急劇增加,大模型訓練需要大規模跨節點多卡集群,硬體挑戰來自計算、儲存和通訊。 建設乙個規模為1000卡路里的大型模型資料中心的成本高達數億元,這是很多創業公司難以承受的。 為了解決上述問題,降低資料中心建設成本,亟需建設集中式算力中心,整合不同架構的異構晶元,實現滿足各種應用場景需求的大型算力平台。 大模型的統一中間層可以向上適配不同垂直領域的大模型,向下相容不同的國產AI晶元,從而提高異構計算平台的效率,降低使用者在不同模型、不同晶元之間的遷移成本,是解決大模型時代算力挑戰的重點方向之一。
6)先進技術布局。
“效能密度”的核心指標是製造工藝、晶元設計水平、先進封裝等多個層面的協同作用。 在目前國內3nm、5nm等先進製程獲取受限的背景下,有必要繼續攻關先進製程中的重要裝置和材料,如DUV EUV光刻機、光刻膠等。
7)能源的最佳利用。
在碳中和的背景下,為應對算力中心極高的能耗需求,“資料中心+清潔能源+儲能”將是必經之路。 資料中心將成為乙個負載可變可調的綜合體,以應對發電和電網側需求,並通過參與電力交易實現智慧型“調峰填谷”套利,降低運營成本。
根據“資料中心能源十大趨勢”,高能計算中心不能依靠風冷實現有效散熱,液冷將成為標配,供水效率也成為算力中心的關鍵。 傳統資料中心耗水散熱耗水量大,對缺水地區的生態環境造成影響。 用水效率(WUE)已成為國際上關注的重要參考指標,無水或少水的製冷技術是未來的發展趨勢。
行業如何應對?
在行業層面,我們有以下建議:
1)加強頂層設計,謀劃算力產業戰略部署日前,工信部等六部門聯合印發《計算基礎設施高質量發展行動計畫》,加強計算產業頂層設計,但仍需進一步加強統籌。 建議在現有相關領導小組中成立算力發展委員會(或聯席會議),秉持及時適當干預的立場,加強算力發展頂層設計,完善資訊交流機制,形成統一協調的決策機制。
2)優化空間布局,整體推進算力基礎設施建設在落實“十四五”相關規劃的基層,加強綜合算力網路國家樞紐節點建設,推進京津冀、長三角、粵港澳大灣區等重點算力節點有序按需建設算力基礎設施。 並努力提高現有和新計算設施的利用率。
3)布局龍頭專案,提公升行業共性關鍵技術儲備。為充分發揮國家科技計畫的象徵性和引領作用,可以考慮在國家自然科學領域開展計算架構、計算方法、演算法創新等基礎研究同時,在國家重點研發計畫中設立多個專案,開展算力關鍵技術應用示範研究,加強算力與相關產業的融合應用。
4)探索多元化投資,推動算力產業高質量發展。充分發揮產業引導的槓桿作用,通過引導鼓勵地方政府加大對算力產業的投入,培育更多優秀企業和專案。 探索科技金融新模式,加大對重點計算專案的資金支援力度。 創新計算基礎設施專案社會融資模式,支援社會資本流向計算產業。
5)打造開放生態,共建新業態新模式。算力的高投入、高風險、高壟斷,決定了算力的競爭是一場只有少數幾個大國的少數企業才能參與的遊戲。 **要大力推進產學研深度融合,引導龍頭企業開展算力相關關鍵技術,提公升研發能力,搭建開放平台,吸引上下游企業有效對接,共享算力創新成果。 鼓勵國內企業、高校等組織擴大與境外相關組織的合作。
綜上所述,要突破算力瓶頸,需要硬體、軟體、系統的耦合,需要生態與產業的協同,具有多層次、多學科體系的特點。 需要將產業應用、科研、人才培養、基礎平台相結合,推動相應的研究和最終商業化。
作者王宇,清華大學電子工程系終身教授、系主任,清華大學資訊科學與技術學院副院長茹鵬,清華大學智庫中心副主任,清華大學公共管理學院副教授謝啟軍,清華大學科教政策研究中心主任助理、清華大學公共管理學院助理教授