下一代至強將擁有更多核心、更大的快取和更簡單的小晶元架構。
周四,英特爾在紐約舉行的AI Everywhere會議上推出了具有更多核心,更大快取和機器習的第五代至強可擴充套件處理器。
這家 x86 巨頭希望新一代至強晶元能夠吸引擁有專用 AI 加速器的客戶,並宣稱該處理器“無疑將是 AI 的最佳 CPU”。 事實上,英特爾是為數不多的將人工智慧加速設計(即高階矩陣擴充套件或 AMX 指令)整合到其資料中心晶元中的供應商之一,因此這種炒作似乎是有根據的。
相較於Sapphire Rapids(已經反彈一年多,直到今年1月才正式上線),英特爾表示,第五代至強的AI推理速度提公升到了14 倍,並為各種應用程式提供可接受的延遲 - 當然,僅限於較小的機器 習 應用程式。
在我們深入研究英特爾的 CPU 加速 AI 戰略之前,我們不妨先看看晶元本身。 雖然今年是至強家族的正常更新年,但英特爾在幕後確實與上一代相比做出了相當大的改變,努力提高晶元的效能和效率水平。
Emerald Rapids 確實比其前身帶來了許多重大改進,通常具有更高的核心數量和更大的 L3 快取。
這款新晶元將帶來多達 64 個核心。 對於一款2024年初才上市的晶元來說,這樣的數字並不驚人。 畢竟,AMD在2024年推出的EPYC 2就是為了達到這個水平,而大多數晶元廠商,包括幾家雲服務提供商,目前都在部署72核、96核,甚至128核及以上的晶元。
好訊息是,與今年 1 月上市的 Sapphire Rapids 不同,這次核心數量最多的型號不僅僅是針對大型四插槽或八插槽平台。 也就是說,英特爾主流至強處理器的核心數量上限終於從之前的56個提公升到了96個。 壞訊息是,如果你需要乙個大型的多路伺服器,你仍然可以暫時選擇Sapphire Rapids。 因為至少在明年,英特爾的第五代至強最多只能支援**插槽平台。
一定有朋友認為英特爾會使用更多的小晶元來增加核心數量,類似於AMD去年將其EPYC 4提公升到96個核心的方式。 但事實並非如此。
雖然保留仍然是必要的,但至少在單核比較中,英特爾聲稱其 Emerald Rapids Xeon 的效能高達 AMD EPYC 處理器的 2 個5次。
總而言之,英特爾聲稱其第 5 代至強的 64 核版本在各種基準測試中比相同數量的 AMD EPYC 4 9554 處理器具有競爭優勢。 當然,一如既往,對這些說法持保留態度。 雖然基準測試確實指出英特爾的單核比AMD更強大,但這並沒有考慮到AMD EPYC 4平台的50%至100%核心數量優勢。 因此,雖然英特爾的單核效能可能更強,但AMD仍然可以將更多核心塞入同一插槽伺服器。
由於對 AI 加速器的需求遠遠超過功能,英特爾正在將其 Emerald Rapids Xeon 作為理想的推理平台,並對其晶元進行了多項重大改進,以增強其 AMX 加速能力。
具體來說,英特爾已經調整了 X-512 和 AMX 模組的睿頻頻率,以解決因法律啟用這些指令而造成的效能損失。 該公司聲稱,除了架構改進外,某些工作負載的推理效能比其前身 Xeon 提高了 42%。
然而,隨著 GPT-4、Meta Llama 2 和 Stable Diffusion 等大型語言模型風靡一時,英特爾也開始談論在其 CPU 上執行小批量模型的能力。 對於此類工作負載,效能的主要決定因素在於記憶體頻寬和延遲。 因此,新一代至強的 4500 mt 秒 DDR5 無疑會有所幫助,但它仍然無法完全取代 HBM。 儘管英特爾實際上已經開發了帶有 HBM 的 CPU,但 Aurora 和 Crossroads 超級計算機中使用的 Xeon Max 系列處理器在這一代中還沒有問世。
根據英特爾的說法,引數大小不超過 200 億個引數的大型語言模型可以在第五代至強上執行良好。
即便如此,英特爾表示,在使用 ** Slot Xeon 平台的 GPT-J 模型中,下乙個令牌的響應延遲(即響應提示詞生成單詞或短語的速度)可以控制在 25 毫秒左右。
但是,從圖表中可以看出,隨著引數大小的增加,延遲也會並行增加。 不過,英特爾表示,在執行 LLAMA 2 13B 型號時,第五代至強已經能夠將延遲控制在最低 62 毫秒,完全符合晶元廠商普遍設定的 100 毫秒標準。
據我們所知,英特爾已經能夠在具有多達 200 億個引數的模型上實現可接受的延遲。 除此之外,這家晶元巨頭還通過分布式模型展示了可接受的下乙個代幣響應延遲,例如跨四個雙插槽節點的 Meta 700 億引數 LLAMA 2 模型。
儘管仍然存在侷限性,但英特爾堅持認為,其客戶已經在嘗試通過CPU執行大型模型推理。 當然,我們並不懷疑。 以可接受的效能水平執行大型語言模型或其他機器學習 習 工作負載確實有望顯著降低成本並避免 GPU 裝置已經過高的價格。
然而,對於那些希望執行更大模型的人來說,例如具有 1750 億個引數的 GPT-3,像英特爾自己的 Habana Gaud2 這樣的專用 AI 加速器似乎不太可能很快出現。
說到這裡,英特爾提到高迪 3 將於 2024 年發布,並將與英偉達的 H100 和 AMD 的 Mi300X 正面競爭。 不過,這家晶元巨頭並未透露晶元的細節。
雖然英特爾的Emerald Rapids Xeon確實改進了很多,但這款晶元的風頭已經被英特爾的下一代資料中心處理器搶走了。
在過去的幾個月裡,英特爾一直在吹捧其效能和效率核心,即代號分別為Granite Rapids和Sierra Forest的Xeon處理器。 預計這些晶元將提供更誇張的核心數量,支援更大、更快的記憶體,並將成為首批使用英特爾拖延已久的真正 7nm (Intel 3) 工藝的產品。
Sierra Forest將於明年上半年推出,聲稱在單插槽系統中提供多達288個節能核心,或每個計算塊144個核心。
另一方面,Granite Rapids 計畫於 2024 年晚些時候推出。 根據我們從今年夏天的英特爾創新大會上得到的資訊,該處理器將採用新的模組化小晶元設計,每側最多可以包含三個計算塊和乙個IO晶元。
英特爾尚未透露Granite Rapids將提供多少個核心,但在今年夏天的Hot Chips會議上,這家晶元巨頭表示將提供136個PCIe通道和12個記憶體通道,支援8,800 Mt sec MCR DIMM。 這樣一來,晶元的記憶體頻寬將增加到845吉位元秒左右,這無疑將大大提高大型語言模型的推理效能。
當然,沒有其他供應商可以坐視英特爾的新一代產品席捲市場。 AMD預計將在明年推出代號為Turin的第五代EPYC處理器。 同時,各大雲服務商也紛紛發布自有的基於ARM架構的**CPU。