解耦架構資料中心技術路線圖(第一部分)。

Mondo 科技 更新 2024-02-01

傳統的資料中心架構主要以伺服器為部署單元,實現計算處理和儲存讀寫,通過網路實現伺服器之間的連線和接入,其中伺服器通過匯流排連線CPU、記憶體、GPU、硬碟等計算和儲存資源。 第七屆未來網路發展大會發布了《計算網路作業系統、光電融合服務、定製廣域網》和《以網路IO為中心的Serverless資料中心》。**鏈結:

未來網路***2023)Collection1,Future Networks***2023):計算網路作業系統***2,Future Networks***2023):以網路IO為中心的Serverless資料中心***3,Future Networks***2023):用於光電融合服務的定製WAN***

ACDU中國行:資料庫技術披露與應用實踐合集“資料驅動企業數位化業務報告創新技術推動算力網路深度發展企業桌面虛擬化系統的設計與實現:企業終端運維、超融合基礎設施、伺服器虛擬化核心技術的現狀與未來千兆光接入網技術進展高通量資料網路架構與關鍵技術***中國企業SaaS行業研究報告(2022)金融級分布式資料庫***基礎網路技術:千兆光寬頻技術發展**(2023)構建邊緣智慧型,推動算力網路新發展(2023)2023-2024年全球DICT技術趨勢研究與判斷 車載廣播車載無線傳輸技術報告(2023)行業深度研究報告《控制混合多雲》環境***全棧雲技術探索與實踐合集》2024年美國SaaS市場研究報告 受限於伺服器內部匯流排的本地接入和有限容量,各種資源只能緊密耦合地存在,因此傳統資料中心往往會購買各種型別的伺服器來滿足不同應用的計算和儲存需求。

總的來說,基於伺服器的資料中心存在硬體擴充套件性不足、資源利用率低、資源使用彈性不足、容錯粒度低等侷限性,無法有效滿足Serverless計算、分布式訓練等新興應用的多樣化需求。

資源解耦資料中心架構的主要形式是構建CPU、GPU、FPGA、RAM、SSD、HDD等異構儲存和計算資源池,通過網路將各個硬體資源池連線起來,實現資源池之間的互聯互通。

上述資源解耦資料中心架構打破了傳統伺服器之間的物理邊界,同時由於網路具有全域性接入和高度擴充套件能力,可以擺脫傳統資料中心架構以伺服器為部署單元的束縛。

隨著儲存和計算資源應用需求的多樣化、高速網路技術、高能耗硬體控制等,基於資源解耦架構的資料中心迎來了發展機遇。

1)應用需求多樣化。

在資源效能方面,不同領域的應用涉及不同型別的資料操作,適合使用特定的計算晶元進行處理,例如人工智慧領域涉及的矩陣或向量的乘法和加法,具有較高的特異性和過高的計算功耗,不適合使用通用CPU進行計算。

應用在儲存計算資源需求和效能方面的多樣化需求,推動了資料中心向資源解耦架構的演進。

2)高速網路連線。

CPU、GPU、RAM、SSD等儲存和計算單元的解耦,使得以前耦合在同一臺伺服器中的資源之間的通訊現在必須通過網路,這大大增加了它們之間的資料互動延遲。 因此,網路技術決定了上層應用的效能和池化硬體資源的能力。

3)高能硬體控制。

為了解決本地伺服器資源利用率低的問題,單類資源池化是當前主流的發展方向之一,吸引了眾多廠商的加入,其關鍵技術在於遠端資源的高效管理和使用。

隨著網路和硬體技術的飛速發展,資源解耦架構因其資源利用率高、硬體可擴充套件性好,成為未來資料中心的主要發展方向之一。

1.以CPU為中心。

在“以CPU為中心”的技術路線下,各種計算和資料處理任務由CPU執行,而其他元件則為CPU提供支援和服務,這也是當前資源耦合伺服器的作業系統設計基礎。

以CPU為中心+計算解除安裝是目前構建資源解耦資料中心的技術路線之一,其中記憶體和CPU仍然緊密耦合,以減少對傳統“CPU中心”作業系統的修改。 在這條技術路線上,目前只有一些潛在的提案,比如 Fungible DPU、Intel IPU、阿里雲 CIPU、CXL 等,因為目前它所針對的部署場景中還有大量完整的伺服器。

1.1 fungible dpu

Fungible F1硬體架構主要由資料集群、控制集群、網路單元三個功能部分組成。 總共有 8 個資料集群,每個集群有 6 個核心和 4 個執行緒,用於執行資料平面,以加速與資料相關的操作,例如移動、查詢、分析、安全等。 控制集群是乙個四核、雙線程的Linux控制平面,主要負責RSA、橢圓曲線等不同加密演算法的安全認證和加速。

該網路單元總共支援 800G 頻寬,支援 TCP UDP、RDMA over TCP 和 TrueFabric 端點解除安裝,支援使用 P4 語言對資料包路徑進行程式設計,並支援 IEEE1588 精確時間協議 (PTP)。

TrueFabric是Fungible通過基於標準UDP IP乙太網的新型Fabric控制協議提出的大規模資料中心網路互聯互通的新標準。 Fungible F1 DPU 原生支援 TrueFabric,因此 F1 DPU 可用於大規模 TrueFabric 資料中心網路,不同型別的伺服器可以使用 Fungible DPU 作為網路接入點。

TrueFabric 可以從使用 100GE 介面部署的小型伺服器集群擴充套件到使用 200GE-400GE 介面的數十萬臺伺服器的大規模部署,並且可以在不關閉網路的情況下進行增量擴充套件,以實現真正的始終線上執行。 所有部署都使用相同的互連拓撲,中小型部署使用單層主幹交換機,大型部署使用主幹層和枝葉層。

上圖是基於 TrueFabric 和 F1 DPU 的資料中心部署的抽象檢視,具有四種伺服器型別的多個例項:CPU 伺服器、AI 資料分析伺服器、SSD 伺服器和 HDD 伺服器。 每個伺服器例項都包含乙個可替代的 DPU,該 DPU 以固定頻寬(例如 100GE)連線到網路。 同時,在大規模部署中,每個DPU之間都有專用的100GE鏈路。

1.2 intel ipu

在高度虛擬化的資料中心中,需要消耗大量伺服器資源來處理使用者應用程式之外的任務,例如虛擬機器管理程式、容器引擎、網路和儲存功能、安全性以及大量網路流量。 為此,英特爾推出了基礎設施處理單元(IPU),下圖利用了基於IPU的架構,允許雲服務提供商(CSP)將與基礎設施相關的任務從CPU解除安裝到IPU,從而釋放伺服器CPU週期來處理任務,以增加資料中心收入。

通過將基礎設施相關任務解除安裝到IPU,CSP可以將其所有伺服器CPU出租給客戶。 目前,英特爾提供兩種IPU架構,包括基於FPGA的IPU和基於ASIC的專用IPU。

目前,有兩個基於FPGA的IPO,分別是Oak Springs Canyon和Arrow Creek。 Oak Springs Canyon 基於英特爾的 Agilex FPGA 和 Xeon-D CPU 實現,兩者協同工作以解除安裝 2x 100G 工作負載並優化圍繞 x86 的豐富軟體生態系統。

Oak Springs Canyon 利用英特爾 OpenFPGA 堆疊,這是一種可擴充套件的原始碼可訪問軟體和硬體基礎設施堆疊,可滿足 100G CSP 的部署需求。 Oak Springs Canyon 還具有強化的加密塊,可實現線速效能,以保護所有基礎設施流量、儲存和網路。

Arrow Creek是乙個基於Agilex FPGA和E810 100G乙太網控制器的加速開發平台。 它建立在英特爾 N3000 Pack 的基礎上,該套件目前已部署在全球許多通訊服務提供商中。 Arrow Creek 提供靈活、加速的工作負載,例如瞻博網路 Contrail、OVS 和 SRV6。

Mount Evans是英特爾首款基於ASIC的IPU,可以通過PCIe連線多達四個至強處理器,並將計算負載解除安裝到IPU進行處理。 Mount Evans 有乙個資料包處理引擎,支援許多現有用例,例如 vswitch 解除安裝、防火牆和虛擬路由通過擴充套件傲騰 NVMe 控制器來模擬 NVMe 裝置;使用快速助手技術部署高階加密和壓縮加速支援在DPDK、SPDK等軟體環境下程式設計,支援自研P4程式語言配置流水線。

1.3 阿里雲 CIPU

雲基礎設施處理單元(CIPU)是阿里巴巴集團提出的一種雲處理器,專門用於連線伺服器中的硬體和雲上的虛擬化資源。 CIPU快速將資料中心的計算、儲存、網路資源上雲,並進行硬體加速,向上對接飛天雲作業系統。

在計算方面,CIPU支援協同計算,可以將計算任務分發到多個節點進行處理,實現更高的計算效率和可靠性。 在儲存方面,CIPU提供“飛天分布式儲存”技術,可以將資料分發並儲存在多個節點上,提高資料的可靠性和可擴充套件性。 在虛擬化方面,CIPU 可以在同一物理伺服器上執行多個虛擬機器以提高資源利用率,同時支援容器化管理,以快速部署、管理和擴充套件各種應用程式。 在程式設計方面,阿里巴巴的CIPU架構提供了一整套AI框架,包括TensorFlow、PyTorch等,支援各種AI應用場景。

1.4 cxl

CXL(Compute Express Link)由英特爾、戴爾和惠普等公司於2024年推出,是一種基於PCIE的開放式互連技術標準,可實現CPU與GPU、FPGA或其他加速器之間的高速高效互連,以滿足高效能異構計算的要求,同時保持CPU記憶體空間和連線裝置記憶體之間的一致性。

CXL 定義 CXLio、cxl.快取和 CXLMEM 三種協議。 cxl.IO 協議是 PCIe 5 的改進版本0 協議用於初始化、鏈結、裝置發現和列舉以及暫存器訪問,同時為 IO 裝置提供不一致的載入儲存介面。

cxl.快取協議定義了主機和裝置之間的互動,允許連線的 CXL 裝置使用請求和響應方法高效且低延遲地快取主機記憶體。 cxl.MEM 協議使 CPU 能夠使用外部裝置作為主儲存器,從而實現更大的儲存器容量。 通過這三種協議的組合,可以連線不同型別的裝置,包括PGAS NIC(Type-1)等網絡卡,高效能計算中的GPU(Type-2)等加速器,FPGA(Type-2)和記憶體擴充套件裝置(Type-3)等。

目前,CXL 標準已發展到 CXL30。與傳統的 PCIe 樹形結構和前幾代 CXL 相比,CXL30增加了對二層交換機的支援,實現了葉脊等非樹狀網路架構,如圖2-9所示。 CXL 網路可以支援 4096 個節點,並通過基於埠的路由機制相互通訊。 在這裡,節點可以是主機 CPU、CXL 加速器、PCIe 裝置或 GFAM(全域性結構附加記憶體)裝置。 GFAM 裝置類似於傳統的 CXL Type-3 裝置,不同之處在於可以使用基於埠的路由以靈活的方式由多個節點(最多 4095 個)訪問。 因此,CXL 30不僅可以實現計算資源和儲存資源在乙個機櫃內的池化和解耦,還可以在多個機櫃之間建立更大的資源池。

**鏈結:

資料庫歷史視角下知乎多雲快取的演進雲環境下企業運維平台的演進“2023:OLAP引擎架構峰會合集(上)”“2023:OLAP引擎架構峰會合集(上)”2023雲服務行業趨勢與熱點“”2023資料庫技術架構合集(4)“”2023資料庫技術架構合集(3)“, 《2023資料庫技術架構合集(2)回歸資料原點:企業資料庫技術解讀》《2023資料庫技術架構合集(1)》《2024年國內資料庫實踐合集》研究框架:華為計算的崛起(2023)儲存系統基礎知識研究發展現狀與趨勢儲存技術趨勢分布式儲存趨勢及其對雲儲存的影響

2、資料中心可持續發展要求

3. 資料中心綠色設計***2023)。

4、新型資料中心高安全技術體系

中國網路安全市場行業報告收集年度 中國網路安全市場全景

2.《中國網路安全行業分析報告(2021)》。

3. 中國網路安全行業***2022)。

4. 中國網路安全行業***2022)。

作業系統技術合集》1、統信伺服器作業系統企業版v20PDF 2,中標麒麟桌面作業系統軟體(arm64版)。pdf國產桌面作業系統生態發展研究報告。 PDF 4、作業系統深度:國產大潮在上公升,大海在跳躍。 PDF5,整車控制作業系統架構研究報告。 PDF 6、國產作業系統:布局全面深化,產業格局拓展。 PDF7、國內作業系統安全現狀與發展。 pdf8.國內領先的作業系統,搶占自主可控的機遇。 pdf

9、誰是國產作業系統的主人?pdf

10. 計算機專題報告:HarmonyOS生態的商業模式。 pdf

11.龍芯牌藝匯sylixos作業系統。 pdf

2023 年雲計算技術與報告合集》 1、雲計算 *** 20237) 2.雲計算面臨的 11 種主要威脅 3.雲計算安全等級保護 20合規能力***4、雲計算重點行業應用報告5、雲計算平台效能評估模型方法研究6、雲計算標準與效能評估7、中國雲計算創新活力報告。

雲計算全棧雲技術***合集》 本號所有資訊均上傳至知識星球並新增全棧雲技術知識地球上的所有資訊。 ‧‧end ‧‧免責宣告:本期重點介紹相關技術分享內容中表達的觀點並不一定代表這個數字的立場,註明可追溯內容**,若發表文章有版權等問題,請留言刪除,謝謝。

相關問題答案

    資料中心網路架構有多強?

    許多網路工程師在學習了基本和流行的技術後,總是會對資料中心技術產生濃厚的興趣。資料中心是乙個難以用短句定義的概念,它包含一整套複雜的設施它不僅包括計算機系統和相關配套裝置,還包括冗餘資料通訊連線 環境控制裝置 監控裝置和各種安全裝置。就在兩年前,阿里巴巴建成了中國第乙個超級資料中心,與傳統資料中心相...

    超融合2023資料中心液冷技術“進設計院”系列活動圓滿落幕

    為拓寬液冷技術在資料中心行業應用的新場景,促進資料中心高效提公升和高質量可持續發展,加強設計單位對液冷技術創新趨勢的理解和應用能力,超融合與CDCC聯合舉辦了資料中心液冷技術 進設計院 系列活動,並攜手行業專家,將資料中心液冷技術依次帶入三大設計單元。月日,走進設計院 活動決賽在廣東省電力設計院網路...

    本地資料中心和雲資料中心哪個更好?

    在當今資料驅動的時代,選擇合適的資料中心已成為許多企業和組織的重要問題。本地和雲資料中心各有其獨特的優勢和劣勢,我們將從多個角度審視它們的優缺點。.資料安全。在資料安全方面,本地資料中心通常更佔主導地位。由於資料儲存在本地,因此企業可以更好地控制其資料的安全性和私隱性,從而降低資料洩露的風險。此外,...

    資料中心防雷技術要求電湧保護器

    該資料中心的防雷裝置採用知名品牌產品,所有子系統防雷裝置和後備保護器必須選用同一品牌產品。電湧保護器製造商應遵守ISO ISO和ISO質量及環境管理體系認證。本專案通訊系統的防雷裝置應符合下列國內外技術標準和規範。資料中心建築物的電力線和通訊線路應安裝在LPZ與LPZ LPZ和LPZ的交界處,以及終...

    nVisual可以為資料中心解決哪些問題?

    NVuild 使資料中心管理人員能夠通過視覺化管理有效且高效地管理資料中心的資產 電纜 容量和變更使資料中心經理能夠獲得問題的答案,以便他們能夠快速做出更好 更明智的決策 我們有什麼?它是如何配置和連線的?它位於 哪些企業使用它?它的維護是什麼?我們的裝置如何連線到網路 儲存和電源?如何輕鬆了解物理...