在近日舉行的 re:invent 大會上,亞馬遜雲科技高階首席工程師 Stephen Kalangarn 與觀眾分享了亞馬遜雲科技海外伺服器在構建全球網路基礎設施過程中的創新經驗。 本深度演講介紹了物理網路的最新進展,以及如何通過意圖驅動的網路模型提高可用性、可靠性和效能。
Karangahn在演講中強調了亞馬遜雲科技海外伺服器在物理網路方面取得的成績,以及他們在布局海外市場的過程中對未來的願景。 這個由數百萬台海外伺服器組成的全球網路分布在 190 個國家/地區的數百個節點上,每天處理數萬億個客戶請求。 他分享了一些客戶對亞馬遜雲科技海外伺服器當前網路基礎設施和長期規劃的迫切擔憂,因為這關係到他們所依賴的雲服務,如EC2、S3和Lambda。
Calangarn 將網路劃分為多個領域,包括裝置、控制平面、管理平面和規劃,強調可靠性和高可用性是亞馬遜雲科技網路基礎設施的內在特徵。 他深入研究了底層物理基礎設施,涉及背板上的物理路由器、交換機和伺服器等元件,揭示了這些對保持可靠性至關重要的元素。
儘管大多數人認為亞馬遜雲科技的許多海外伺服器基礎設施主要在雲中執行,但Karangarn強調,他和他的團隊一直在研究底層物理基礎設施。 對他來說,了解這些機器內部的元件、執行在它們上的軟體以及為保持可靠性而設定的整體系統非常重要。 他用一些例子來展示亞馬遜雲科技定製的硬體,比如並行更新板,將更新週期從132縮短到1,使交換機光學器件得以更新。
在分析 Amazon Web Services Overseas Server (AWS) 的基礎設施擴充套件時,Karangarn 概述了一種基於區域數量、功能和規模等因素規劃未來增長的方法。 他詳細討論了可用性分割槽隔離等技術承諾如何轉化為實際的網路需求,而亞馬遜雲科技的雲計算服務已將這些承諾直接納入其網路意圖,從而實現了跨裝置、區域、區域和規劃的預期行為宣言。
Kalangarn 進一步深入研究了亞馬遜海外伺服器雲計算服務定義的意圖類別,包括運營意圖、路由意圖、字首意圖和恢復目標意圖。 這些意圖是標準化的,因此行為可以在網路上傳播。 例如,意圖可以強制同一可用區中的兩個 EC2 例項之間的通訊限制在“延遲小於 2 毫秒”的分區內。
隨後,Karangarn 通過對機器學習工作負載的客戶案例研究,演示了亞馬遜雲科技雲計算服務如何利用意圖來開發新的網路拓撲。 當超級集群服務從“頻寬為 400Gbps 的 P4 例項”公升級到“P5 例項”時,32Tbps“,團隊需要減少延遲和跳數,以提高 ML 訓練作業的效能。 這促使他們重新構想了兩層網路結構,並引入了一種稱為CIDER的新路由協議。
在最後部分,Karangahn 談到了亞馬遜雲科技海外雲計算服務如何應用形式化方法和自動推理技術來驗證網路配置以防止故障。 通過盡早測試並經過數學驗證,亞馬遜雲科技能夠對大規模問題進行推理,構建更強大的系統來支援其網路基礎設施,該基礎設施每天在全球範圍內啟動超過“100 萬個計算例項”。
在整個演講中,Karangarn 強調了亞馬遜雲科技海外伺服器雲計算服務如何利用 Intent 來提高網路可用性和創新,同時降低複雜性。 旨在支援跨裝置和系統的一致性、可見性和自動推理,為在 190 個國家/地區執行關鍵任務應用程式的服務提供基礎設施,在全球擁有數百萬客戶。 亞馬遜雲科技海外伺服器雲計算服務詳細介紹了他們邁向意圖驅動型網路模型的旅程,展示了下一代基礎設施如何滿足在全球範圍內執行尖端工作負載的客戶的需求。 該演講為業界提供了對亞馬遜雲科技在構建未來網路基礎設施方面的前沿進展的深入見解。