周二,在阿姆斯特丹舉行的Cisco Live上,企業網路巨頭思科宣布與NVIDIA合作,推出一系列針對當下最熱門詞彙量身定製的硬體和軟體平台——AI ML:人工智慧機器學習。
此次合作的關鍵點之一是使使用標準乙太網更容易部署和管理人工智慧系統,那些經歷過獲得CCNA和/或CCNP證書的人將很好地理解這一點。
為 AI 集群提供支援的 GPU 也經常是討論的焦點,但支援 AI 集群所需的高效能、低延遲網路可能非常複雜。 現代 GPU 節點確實受益於 200Gbs、400Gbs 和即將推出的 800Gbs 高速網路,但這只是故事的一部分,尤其是在訓練模型方面。 由於這些工作負載通常需要分布在具有四個或八個 GPU 的多個伺服器上,因此任何額外的延遲都會導致更長的訓練時間。
因此,NVIDIA 的 Infiniband 仍然主導著 AI 網路部署。 dell'Oro Group 的企業分析師 Sameh Boujelbene 最近在接受採訪時估計,大約 90% 的部署使用 NVIDIA Mellanox 的 Infiniband 而不是乙太網。
這並不是說乙太網沒有被認真對待。 新興技術,如具有深度資料包緩衝區的 SmartNIC 和 AI 優化的交換機、有助於抑制資料包丟失的專用積體電路 (ASIC),使乙太網至少更像 Infibland 一樣執行。
例如,我們去年夏天談到的思科矽一號G200交換機ASIC具有許多有利於AI網路的功能,包括高階擁塞管理、資料包噴射技術和鏈路故障轉移。 但是,需要注意的是,這些功能並非思科獨有,因為NVIDIA和Broadcom近年來推出了類似的交換機。
dell'Oro**到2027年,乙太網在AI網路中的作用將佔收入份額的20%左右。 其中乙個原因是業界對乙太網的熟悉程度。 人工智慧部署可能仍需要一些特定的調整,但企業已經知道如何部署和管理乙太網基礎設施。
對於英偉達來說,僅此一項就使與思科等網路供應商的合作成為乙個有吸引力的前景。 雖然這可能會減少 NVIDIA 自己的 Infiniband 或 Spectrum 乙太網交換機的銷售,但回報是能夠為企業提供更多的 GPU,否則這些企業可能會對部署完全獨立的網路堆疊持懷疑態度。
為了支援這些工作,思科和NVIDIA推出了參考設計和系統,旨在確保相容性,並幫助解決部署網路、儲存和計算基礎設施方面的知識差距,以支援其AI部署。
這些參考設計面向企業可能已經投資的平台,包括 Pure Storage、NetApp 和 Red Hat 的套件。 該參考設計還有助於驅動思科的 GPU 加速系統。 其中包括將其 FlexPod 和 FlashStack 框架應用於 AI 推理工作負載的參考設計和自動化指令碼。 許多人預計推理,特別是對於小型的、特定於領域的模型,將成為企業 AI 部署的主要部分,因為它的執行和訓練成本相對較低。
FlashStack AI Cisco Verified Design (CVD) 是使用 Pure Storage 快閃記憶體陣列部署思科網路和 GPU 加速 UCS 系統的指南。 FlexPod AI ( CVD )似乎遵循類似的模式,將 Pure 換成了 NetApp 的儲存平台。 思科表示,這些產品將於本月晚些時候上市,未來將推出更多基於NVIDIA的DVD。
值得一提的是思科的 UCS 計算平台,該平台還引入了採用 NVIDIA 最新 GPU 的以邊緣為中心的 X 系列刀片系統。
X Direct 機箱有 8 個插槽,可以配置乙個插槽或四個插槽計算刀片組合,或者配置用於 GPU 計算的 PCIe 擴充套件節點。 其他 X-Fabric 模組也可用於擴充套件系統的 GPU 容量。
不過,值得注意的是,與 NVIDIA 來自 Supermicro、Dell、HPE 等最強大的 SXM 模組不同,思科的 UCS X Direct 系統似乎只支援功耗更低的基於 PCIe 的 GPU。
根據UCS X Direct資料表,每台伺服器最多可配備6個緊湊型GPU,或最多2個插槽全長全高GPU。
對於想要執行消耗數百 GB GPU 記憶體的大型語言模型的使用者來說,這可能是乙個限制。 但是,在執行較小的推理工作負載(例如邊緣資料預處理)時,這可能就足夠了。
思科的平台面向製造業、醫療保健業和執行小型資料中心的企業。