Amazon Web Services 繼續遙遙領先，為 IaaS 奠定了堅實的基礎

亞馬遜雲科技一直是雲計算行業的風向標，也是龍頭的領頭羊，一年一度的re：invent大會吸引了整個行業的關注。不久前，Re：Invent 2023 成功舉辦，不僅秉承了亞馬遜雲科技“客戶至上”的理念，還發布了多項 IaaS 解決方案理念，在效能、成本、安全性等方面進行了進一步迭代。讓我們來看看本次會議的眾多亮點。

在每屆RE：INVENT大會上，最重要的資訊都是自研晶元。自2024年誕生以來，GR**ITON系列晶元已推出150種例項，雲上200萬片，交付50000名使用者，獲得TOP100客戶認可例如，SAP：是GR**ITON的主要客戶;

與 GR**ITON3 相比，96 個 Neoverse v2 核心、每個核心 2 MB 的 L2 快取和 12 個 DDR5-5600 通道的組合使 GR**ITON4 的資料庫處理速度提高了 40%，Web 應用程式的速度提高了 30%，大型 J**A 應用程式的處理速度提高了 45%。

本次大會特意強調DB和J**A場景，我們之前已經評估過了，確實是ARM的關鍵場景，相比GR**ITON在其他強勢場景下，這兩個場景的表現不夠突出，這也是本次大會額外強調的原因。

幾代ARM產品的主要引數如下。

EC2 R8G是基於ARM晶元的計算產品，單CPU支援96核，整機支援192核

Gr**Iton 支援大量雲產品，包括 DB、大資料、容器、FaaS

新的 gr**iton4 內部有 96 個核心，並且基於 ARM"demeter"基於 ArmV9 架構的 Neoverse v2 核心與 64 核 gr**iton3 相比，核心數量增加了 50%。這次採用7晶元設計，12個DDR5控制器分布在4個晶元上2 個 PCIe5 晶元和 CCIX Numa 互連 DI

超出預期的NUMA互聯架構，ARM架構下的CCIX實現不是特別完善，延遲也非常大，但這一代GR**ITON居然跨過了這一步。

為什麼 ARM 伺服器架構從過去的獨立 3 插槽架構轉變為 NUMA 設計？

推測和位置是密不可分的：大型資料庫、SAP Hanna 和無限的 Arura 資料庫當然，這對CCIX互聯有很高的時延要求，預計效能會很出色

關於效能設計，第乙個圖是傳統的基準測試，推測應該是specint2017，這是乙個標準化、易安裝的程式，而一般的程式比較小，很難反映真實的業務績效。 GR**iton CPU設計產品採用“Real Workload”基準測試，優化CPU設計;

MySQL 基準測試顯示，在 8vCPU 上測試 Groovy Grails 應用程式時，它比 R7G 有 40% 的優勢，而優勢超過 45%。

據統計，目前Amazon Gr**Iton支援的Amazon EC2例項超過150種，已構建超過200萬個Amazon Gr**Iton處理器，超過50,000家客戶，包括Datadog、DirectV、Discovery、Formula 1（F1）、Nextroll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe、Zendesk等。 例如，SAP 在使用 Amazon GR**ITON 服務後，將成本降低了 35%，分析速度更快，同時將碳排放量減少了 45%。

在這次發布會上，我們對比的是上一代的ARM，並沒有對X86的資料進行橫向對比，可以根據GR**ITON3的效能進行推測。

GR**ITON3 於 2021 年發布時，與 GR**ITON2 相比的效能提公升也可以作為 G2-3 的參考。

GR**ITON3採用ARM V1架構，而GR**ITON4則基於下一代V2架構，重點公升級。

l2 cache：1->2m

ARM產品的V2架構被推翻，主要效能引數如下。

V2架構在微處理器的前端和後端都得到了優化和改進。

ARM的物理核心具有天然的優勢，需要積累的是伺服器端高效能負載下的演算法，如指令**、亂序執行、隨機存取資料場景下的快取預取演算法等。與 V1 相比，V2 帶來了 13% 的 SIR 改進和 10% 的 SLC MISS 降低的好處，這似乎通過記憶體訪問消耗了大量的效能。 MOP Fetch 和 HW Prefetch 的效能提公升最為顯著;

branch predict/fetch/icache

x86 發布了兩款產品：

第乙個是 M7i-Intel SPR

CPU 96VCPU，雙向 192VCPU，整合 AI 加速器。

最多 3 個2 GHz 第 4 代英特爾至強可擴充套件處理器（Sapphire Rapids 8488C）。

新的高階矩陣擴充套件（AMX）可加速矩陣乘法。

最新的 DDR5 記憶體，與 DDR4 相比具有更大的頻寬。

M7i-Flex 架構：這一代比上一代多了 1 個核心5 倍，但總 IO 效能相同，因此 Flex 獲利。

最大值為 32vCPU，IO 為 125G網路10GEBS

價效比提公升19%，*M6i降低5%，CPU效能提公升15%。

M7i產品規格：

M7i-Flex 最多 32 核，IO 可以共享，最多隻承諾 12 個5g、10g

價效比優勢;

針對SAP HANA、Oracle、SQL Server等大型記憶體資料庫場景，推出U7i產品。

U7i 最多支援 896 個 VCPU，這是 AWS 雲中 VCPU 數量最多的。它們提供高達 100Gbps 的彈性塊儲存（EBS），即 25 倍以上，使客戶能夠更快地將資料載入到記憶體中並提高備份速度。 U7i 例項支援 EBS IO2 Block Express 卷，以在 Amazon EC2 上提供最佳 EBS 效能。 U7i 例項提供高達 100Gbps 的網路頻寬，並支援 ENA Express。 U7i 例項非常適合擁有任務關鍵型記憶體資料庫（如 SAP HANA、Oracle 或 SQL Server）的客戶。

第二個是M7A-AMD熱那亞產品。

與 M6A 例項相比，由 AMD EPYC（霄龍）處理器提供支援的 Amazon EC2 M7a 例項的效能提公升高達 50%。

主要特點：Turbo 37 GHz 第 4 代 AMD EPYC 處理器（AMD EPYC 9R14） GENOA

50 Gbps 網路頻寬和 40 Gbps Amazon Elastic Block Store （Amazon EBS）頻寬。

多達 192 個 vCPU 和 768Gib 記憶體例項。

SAP 身份驗證例項。

通過 AMD 安全記憶體加密（SME）支援全天候時鐘記憶體加密。

支援 X3-512、VNNI 和 BFLOAT16 等新處理器功能。

新解讀：上一代公尺蘭最大裸機規格是192vpu，為什麼這次沒有提公升？

AMD Genoa 原本是 96核、192HT 能力，為什麼不推出 384vCPU 產品？

答案是他們做了SMT OFF處理，直接將物理核心暴露給使用者，大大緩解了之前公尺蘭時代記憶體不足、HT線性度差的問題同時，M7A追求單一的VCPU頻寬，以確保最佳的應用效能和延遲。

EBS 和 S3 旨在每年發展，以增加頻寬並減少延遲。

首先，頻寬每年增加30%左右，今年將使用100G網路，50G用於VPC，40G將用於EBS，其餘將進行控制。隨著核心密度的上公升（192->256 384），下一代有望轉向200G網路;

其次，儲存延遲非常重要，每年都會向使用者發布新的加速產品。

在 EBS 上，EBS IO2 Express 用於將延遲減少 10 倍

在 S3 物件儲存產品上，S3 Express 單區用於將延遲降低 10 倍

過去我們從使用者的角度看產品，但今年我們終於可以從EBS儲存伺服器的角度來看實現架構了

EC2--Nitro--SRD--EBS伺服器，伺服器規模使用gr**iton CPU，根據經驗，ARM伺服器做儲存的IO、壓縮、驗證，可以大大發揮物理核心的優勢。

在去年的新聞發布會上首次發布的EBS IO2 Express，今年有了更多的產品規格。

與之前的 IO2 相比，它提供了 4 倍的頻寬和容量

與IO1相比，時延降低10倍，可靠性提公升100倍，在高IO吞吐場景下成本降低50%。

IO2 Express基於SRD協議，大大增加了頻寬並減少了延遲。近年來，DCTCP和RDMA協議在資料中心得到應用，大大提高了IaaS互聯的吞吐量。

今年發布了一款新產品，名字有點長，Amazon S3 Express One Zone，為了解決前面提到的文章，它是一款用於物件儲存的 az 內快取加速器，其實叫 S3 Express 更容易記住。

S3 的典型延遲為 10-200 ms，而對於 ML、大資料、資料分析等業務，計算需要等待資料就緒，計算集群消耗和浪費等待時間這就是 S3 Express 的用武之地。

解決方案的架構如下圖所示

以下是幾個關鍵點：

計算伺服器 EC2 與 S3 Express 相同

延遲有 10 倍的速度，如上圖所示，100 毫秒的延遲浪費了大量時間，可以優化 10 倍

據推測，使用 SSD 伺服器集群，** 預計比由 HDD 組成的 S3 貴 10 倍。

Amazon S3 Express 單區是一種高效能的單區 Amazon S3 儲存類，旨在為對延遲最敏感的應用程式提供一致的個位數毫秒級資料訪問。 S3 Express 單區是目前延遲最低的雲物件儲存類，與 S3 標準相比，資料訪問速度提高了 10 倍，請求成本降低了 50%。應用程式可以立即受益於請求完成速度提高幾個數量級。 S3 Express 單區提供與其他 S3 儲存類類似的效能彈性。與 Amazon S3 一樣，無需提前規劃或配置容量或吞吐量要求。儲存容量可以根據需要擴充套件或縮減，並且可以通過 Amazon S3 API 訪問資料。 S3 Express 單區是第乙個通過選擇單個可用區並將物件儲存與計算資源共置來提供盡可能高的訪問速度的 S3 儲存類。此外，為了進一步提高訪問速度並支援每秒數十萬個請求，資料儲存在一種新的儲存桶型別中：Amazon S3 目錄儲存桶。每個儲存桶可以支援每秒數十萬筆交易（TPS），無論金鑰名稱或訪問方式如何。

機密計算對於商業、金融和多方交易非常重要，但近年來普及率並不高英特爾退出了新交所晶元安全解決方案，ARM擁有TrustZone解決方案，AMD擁有自己的不同解決方案對於使用者來說，最好有乙個統一的方案。

Nitro Encl**es 通過將安全金鑰等資訊儲存在統一使用者域之外的單獨 DPU 空間中來實現這一點，從而避免了為不同 CPU 修改程式的需要。它可以與供應商和世代相容還引用了巴西銀行區塊鏈的案例

今年的通用計算網路與上一代100G平台相同網路增強高達200G;AI網路單卡達到400Gbps對於搭載 ARM CPU 的 Nitro 平台來說，在 AI 場景中使用 Jumbo 將頻寬翻倍相對容易當然，面對AI訓練場景，480GB的機櫃匯流排互聯還是需要NVLink的。

隨著越來越多的開源軟體進入企業的生產業務，未來雲計算的不可替代性需要晶元與軟體的結合，多種產品矩陣的組合，為客戶創造差異化價值，提供安全、高效能、低成本的產品和服務。

從十年的產品演進速度可以看出，亞馬遜雲堅持的產品戰略：

成本控制：gr**iton自研晶元，降低60%功耗，讓客戶獲利（過去價格低20%）。

為客戶降價（M7i-Flex）並降低自身成本（6-7代共享100G網路）。

效能第一：AMD處理器產品，M7A（GENOA）策略：釋放物理算力（提公升50%），同時保證記憶體頻寬（DDR5 4800，比上一代提公升50%）。

GR**ITON策略：物理核心，大容量快取，最大記憶體頻寬;同時選用V1和V2系列ARM架構，密度降低一倍（與N系列相比），達到最佳效能

EBS Express 和 S3 Express 是頻寬更高、延遲更低的儲存產品

安全第一：從Nitro加密到網路加解密成本的硬體開銷，記憶體加密要付出10%的延遲開銷，仍然為客戶提供最安全的解決方案。

推出用於機密計算的 Nitro Encl**es;

事實證明，亞馬遜雲科技可以為使用者提供豐富的雲應用選擇，而這些選擇也是行業內最先進、最高端的，不僅提供了差異化的競爭力，還讓使用者在第一時間調整業務，以適應未來數位化的發展。

Amazon Web Services 繼續遙遙領先，為 IaaS 奠定了堅實的基礎

相關問題答案

Mate60 是走在最前沿的技術傑作

從“遙遙領先”到“遙遙落後”，華為Mate60，真的輸了！

華為Mate 60遙遙領先

提前！ OPPO Watch 3系列產品是真正的高階，真的是高階

谷歌的新AI，“遙遙領先”？