由機器之心報告。
編輯:澤南
實用的AI算力已經提公升到乙個新的水平。在人工智慧領域,出現了一些意想不到的趨勢:許多傳統企業已經開始選擇在CPU平台上實施和優化AI應用。
例如,在製造領域,在高度複雜、耗時的缺陷檢測過程中,引入了CPU等產品組合,構建了跨越雲邊端的AI缺陷檢測解決方案,取代了傳統的人工缺陷檢測方式。
例如,亞信科技在其OCR-Airpa解決方案中使用CPU作為硬體平台,實現從FP32到INT8 BF16的量化,從而在可接受的精度損失下提高吞吐量並加速推理。 人工成本降低到1 5 9倍,效率提高約5-10倍。
CPU 還加入了大型模型的群聊,這些模型處理的是 AI 製藥領域最重要的演算法 AlphaFold2。 自去年以來,CPU 已將 AlphaFold2 的端到端吞吐量提高到 2311次;現在,CPU 將這個數字增加了 302次。
所有這些 CPU 都有乙個通用名稱——至強,即英特爾至強可擴充套件處理器。
為什麼這些 AI 任務的推理可以由 CPU 處理,而不僅僅是由 GPU 或 AI 加速器處理?
這裡一直有很多爭論。
很多人認為,實際落地的AI應用往往與企業的核心業務息息相關,在要求推理效能的同時,也需要與其核心資料相關聯,因此對資料安全和私隱的要求也非常高,因此更傾向於本地部署。
結合這一需求,並考慮到真正使用AI的傳統行業更熟悉、知識更淵博、更容易獲取和使用CPU,那麼使用伺服器CPU混合精度實現的推理吞吐量是他們更快、更低成本解決需求的一種方式。
面對越來越多的傳統AI應用和大模型在CPU上被優化,利用CPU加速AI的路徑不斷得到驗證。
正因如此,資料中心 70% 的推理執行在英特爾至強可擴充套件處理器上1。
最近,英特爾的伺服器CPU再次進化。 12月15日,第五代英特爾至強可擴充套件處理器正式發布。 英特爾表示,這款處理器專為人工智慧加速而打造,功能更強大。
人工智慧正在推動人類與技術互動方式的根本轉變,而這種轉變的核心是計算能力。
英特爾CEO帕特·基辛格在2024年英特爾ON技術創新大會上表示:“在這個人工智慧技術快速發展和產業數位化轉型的時代,英特爾保持高度的責任感,幫助開發者讓人工智慧技術無處不在,讓人工智慧更觸手可及、更可見、更透明、更值得信賴。 」
第五代至強加速人工智慧
第 5 代英特爾至強可擴充套件處理器的核心數量增加到 64 個,配備高達 320MB 的 L3 快取和 128MB 的 L2 快取。 在單核效能和核心數量方面,它比之前的至強有了顯著的改進。
在最終效能指標方面,在相同功耗下,平均效能提高了 21%,記憶體頻寬提高了 16%,快取容量比上一代提高了近 3 倍*。
此外,第 5 代至強可擴充套件處理器的每個核心都配備了 AI 加速,使其能夠更好地處理要求最苛刻的 AI 工作負載。 與上一代產品相比,訓練效能提高了 29%,推理能力提高了 42%。
在關鍵的 AI 負載處理能力方面,第 5 代英特爾至強可擴充套件處理器也提供了令人滿意的結果。
首先,CPU 已經學會了如何有效地處理 AI 負載:在至強可擴充套件處理器上,英特爾為深度學習任務帶來了矩陣計算能力支援。
Intel AMX 是 Xeon CPU 上的專用矩陣計算單元,可以看作是 CPU 上的 Tensor Core,從至強可擴充套件處理器開始,成為 CPU 內建的 AI 加速引擎。
第五代至強可擴充套件處理器利用英特爾 AMX 和英特爾* X-512 指令集,以及更快的核心和更快的記憶體,使生成式 AI 能夠在其上執行速度更快,並執行更多工作負載,而無需單獨的 AI 加速器。
憑藉自然語言處理 (NLP) 推理的效能飛躍,全新至強支援響應速度更快的工作負載,例如智慧型助手、聊天機械人、文字、語言翻譯等,在執行具有 200 億個引數的大型語言模型時,延遲不到 100 毫秒。
據了解,1111 期內,京東雲通過基於第五代英特爾至強可擴充套件處理器的新一代伺服器,成功應對業務量激增。 與上一代伺服器相比,新一代京東雲伺服器實現了整機效能提公升23%、AI計算機視覺推理效能提公升38%、LLAMA2推理效能提公升51%等優勢,輕鬆扛住了使用者峰值接入同比增長170%、智慧型客服諮詢超14億次的壓力。
此外,第 5 代英特爾至強可擴充套件處理器提供更高階別的能效、運營效率、安全性和質量,為前幾代提供軟體和引腳相容性支援,以及硬體級安全功能和可信服務。
阿里雲基於第五代英特爾至強可擴充套件處理器和英特爾 AMX 和英特爾 TDX 加速引擎,打造了生成式 AI 模型和資料保護的創新實踐,使第八代 ECS 例項能夠實現全場景加速和全容量提公升,並鞏固安全效能並保持例項不變,讓客戶受益。
資料顯示,在資料保護全流程的基礎上,AI推理效能提公升25%,QAT加解密效能提公升20%,資料庫效能提公升25%,音訊效能提公升15%。
英特爾表示,第 5 代至強可擴充套件處理器可為 AI、資料庫、網路和科學計算工作負載提供更強大的效能和更低的 TCO,為目標工作負載提供高達 10 倍的每瓦效能提公升。
高階 AI 模型的原生加速
為了使 CPU 能夠高效處理 AI 任務,英特爾已將 AI 加速功能提高到開箱即用的程度。
除了加速深度學習的推理和訓練外,英特爾 AMX 現在還支援流行的深度學習框架。 英特爾的 OneAPI 深度神經網路庫 (ONEDNN) 在深度學習開發人員常用的 TensorFlow 和 PyTorch 上提供指令集級支援,使開發人員能夠在不同的硬體架構和供應商之間自由遷移,從而更輕鬆地利用晶元內建的 AI 加速功能。
在確保 AI 加速直接可用後,英特爾利用高效能開源深度學習框架 OpenVino 工具套件,幫助開發人員實現一次性開發和多平台部署。 它可以轉換和優化在流行框架上訓練的模型,並且可以在具有多個英特爾硬體的環境中快速實施,幫助使用者充分利用其現有資源。
最新版本的 OpenVino 工具包還包括對大型語言模型 (LLM) 效能的改進,以支援生成式 AI 工作負載,包括聊天機械人、機械人、生成模型等。
OpenVino 工具包 2.
借助這套技術,英特爾使開發人員能夠在幾分鐘內調整深度學習模型,或訓練中小型深度學習模型,其效能可與獨立 AI 加速器相媲美,而無需增加硬體和系統複雜性。
例如,在高階預訓練的大型語言模型上,英特爾的技術可以幫助使用者完成快速部署。
使用者可以從最流行的機器學習庫 Hugging Face 預訓練模型 Llama2,然後使用 Intel2 PyTorch、Intel Neural Compressor 等將模型轉換為 BF16 或 INT8 精度以減少延遲,然後使用 PyTorch 進行部署。
英特爾表示,為了跟上AI領域的趨勢,數百名軟體開發人員正在不斷改進常用的模型加速能力,以便使用者在獲得對高階AI模型的支援的同時,能夠跟上最新的軟體版本。
第五代至強可擴充套件處理器的實力已經過一些主要製造商的驗證。 Volcano Engine 與 Intel 合作公升級其第三代彈性計算例項。
目前,Volcano Engine 通過其獨特的潮汐資源池能力,構建了百萬核彈性資源池,可以以類似的月度成本提供按量付費的體驗,降低上雲成本。 基於第五代英特爾至強可擴充套件處理器,Volcano Engine 的第三代 Flex 計算例項的計算能力提高了 39%,應用程式效能提高了 43%。
這僅僅是個開始。 可以預見,來自科技公司的更多應用將很快能夠從第五代至強可擴充套件處理器的效能中受益。
下一代至強已經出現
未來,生成式AI的需求將不斷擴大,更多智慧型應用將改變我們的生活。 基於算力,萬物感知、互聯、智慧型的時代正在加速。
面對這一趨勢,英特爾正在加緊打造下一代至強CPU,這些CPU將更加專門用於人工智慧。
在最近披露的英特爾資料中心路線圖中,下一代至強處理器將針對不同的工作負載和場景配備不同的核心,其中專注於計算密集型和AI任務的模型將使用專注於效能輸出的核心P核,而面向高密度和橫向擴充套件工作負載的模型將使用能效更高的核心E核。
未來,英特爾將如何實現電晶體和晶元效能的飛躍,在AI算力上又能做出怎樣的飛躍?
讓我們拭目以待。
1.基於英特爾對截至 2021 年 12 月全球執行 AI 推理工作負載的資料中心的已安裝伺服器容量的市場建模。