KUBERNETES 集群的計算量很大,記憶體過度預配

Mondo 科技 更新 2024-03-06

自 Google 向開源社群發布 Kubernetes 以來的十年中,它已成為編排和管理的領先平台。

翻譯自 Kubernetes Clusters H**e Massive Overprovisioning of Compute and Memory,作者:Jeffrey Burt。 自 Google 向開源社群發布 Kubernetes 以來的十年中,它已成為編排和管理軟體容器和微服務的首選平台,擊敗了 Docker Swarm 和 Mesosphere 等競爭對手。 (還記得他們嗎? 十年後,你不會記得了。 構建軟體堆疊的公司已經採用 Kubernetes 來建立自己的容器平台,例如 Red Hat 的 OpenShift 和 VMware 的 Tanzu,幾乎每個雲服務提供商都在其眾多服務下提供 Kubernetes,而且速度非常快。

根據雲原生計算協會的資料,如今有超過 560 萬開發人員使用 Kubernetes,佔容器編排工具空間的 92%。 Kubernetes 非常強大。 Cast AI 聯合創始人兼首席產品官 Laurent Gil 表示,Cast AI 是一家初創公司,其基於 AI 的自動化平台旨在幫助組織優化對 Kubernetes 的使用,這對於軟體開發人員和 DevOps 工程師來說至關重要在日益分布式和加速的 IT 世界中。

將 Kubernetes 視為乙個很棒的工具箱,“Gil 告訴 The Next Platform。 “我們過去一直使用單體式應用程式。 Kubernetes 的好處是你可以將你的應用程式分解成更小的部分,好處是一些部分可以複製,所以你可以很容易地擴充套件。 想象一下,你是Netflix——他們實際上使用Kubernetes——並且有數百萬人同時湧入**。 如果您使用的是 Kubernetes,則可以無限複製這些容器來處理此流量。 容器非常適合這種情況。 您可以擴充套件它。 它幾乎就是這樣設計的。 ”

也就是說,開發人員在雲中使用 Kubernetes 時會面臨挑戰,其中乙個關鍵挑戰是為應用程式配置 CPU 和記憶體。 去年,這家成立五年的公司研究了開發人員和 DevOps 人員的能力**,了解 Kubernetes 應用程式所需的 IT 資源量,結果並不好。

根據 GIL 的說法,開發人員通常要求比實際需要的計算和記憶體多得多,從而導致大量超支。 2022 年,請求的 CPU 和配置的 CPU 之間存在很大差距——37%,該公司發現去年差距進一步擴大到 43%。 這是基於開發人員想法的超額預配金額。

這意味著在一年之內,浪費實際上會增加,而不是減少,“他說。 “現在應該很清楚了。 如果您需要兩個 CPU,只需配置兩個。 不要配置三個。 但比去年更糟。 ”

Cast AI 研究人員還研究了開發人員實際使用了多少個配置的 CPU。 平均而言,這個數字是13%。 他們想看看這些數字在較大的集群中是否更好,但在具有 1,000 個或更多 CPU 的集群中,CPU 利用率僅為 17%。

具有 30,000 個或更多 CPU 的集群實現了 44% 的利用率,但只有他們檢查的系統的 1%。

所有這些都表明 CPU 被大量過度配置,大部分計算能力處於空閒狀態。

我沒想到結果會很好,但我沒想到會這麼糟糕,“他說。 “平均而言,您的超額配置是 8 倍。 真正有效的那個。 在 100 臺機器中——CPU 是 Kubernetes 中最昂貴的元件——你只使用了 13 臺。 平均而言,您不會使用其餘部分。 如果您有 100 臺計算機,則它們都已使用,但每台計算機僅使用 13%。 Kubernetes 就像房間裡的煤氣。 它將填滿空間。 如果該計算機上正在執行應用程式,則它們都將被使用。 它們將僅以 13% 的利用率使用。 ”

在 2024 年 Kubernetes 成本基準報告中,Cast AI 檢視了去年 1 月 1 日至 12 月 31 日期間在 AWS、Azure 和 Google Cloud Platform 上執行的 4,000 個集群,然後使用供應商的平台對其進行了優化。 他們排除了少於 50 個 CPU 的集群進行分析。 另乙個需要關注的領域是:跨雲託管的 Kubernetes 平台的利用率。 在 AWS 上的彈性 Kubernetes 服務 (EKS) 和 Microsoft Azure 上的 Kubernetes Service (AKS) 上,利用率徘徊在 11% 左右,而在 Google Cloud 的 Google Kubernetes Engine (GKE) 上,利用率甚至更高,為 17%。 GKE 上的集群往往比其他兩個集群大,並且該服務提供了自定義例項。

谷歌是 Kubernetes 的來源,它可能有精明的使用者,它可以以這種方式翻譯,“Gil 說。 “但你知道嗎? 坦率地說,即使是 17% 也不好。 它仍然超額分配了五倍多。 想一想:你去找你的首席技術官,你說,'你知道嗎? 您可以將雲成本降低五倍,因為您實際上不需要那麼多。 ’”

Cast AI 還檢視了記憶體使用情況,並注意到平均記憶體使用率為 20%。 然而,記憶體比CPU便宜,所以如果CPU利用率更高會更好,GIL說。 但事實並非如此。

人們更關注記憶,從本質上講,當他們更專注時,他們會做得更好,“他說。 “他們更關注記憶體,因為當容器記憶體不足時,容器會停止並重新啟動。 CPU 具有彈性。 您可以從 0% 到 80%。 總有空間。 記憶體,你不能超過 100。 如果超過 100,它將崩潰。 它被稱為“失憶”。 oom’。這是對DevOps和Kubernetes最大的恐懼。 他們更關注記憶,所以稍微好一點,但平均而言,它仍然太多了五倍。 ”

雲平台之間沒有太大區別,Azure的記憶體利用率最高,為22%,其次是AWS的20%和Google Cloud的18%。

研究人員在報告中寫道,隨著企業準備增加在雲服務上的支出,他們需要解決這一利用率問題。 預計今年全球終端使用者在公共雲服務上的支出將達到 6788 億美元,增長 20。 從 2023 年的 5636 億美元4%。2022 年 8 月至 2023 年 8 月期間,AWS 在其最受歡迎的美國地區對 Spot 例項的定價平均為 23%。

十年前,許多積極涉足雲計算的組織驚訝地發現,成本開始堆積,這與資料主權和監管問題一起,成為過去幾年資料遣返背後的主要驅動力。 Gil 說,提高資源利用率會有所幫助。

他說,問題在於確定所需的資源仍然是乙個高度手動的過程。 開發人員不知道他們的應用程式或集群需要什麼,因為他們還沒有大規模地看到它。 Gil 說,很難猜測微服務需要什麼資源,並補充說,隨著 Kubernetes 變得更加複雜,它不會變得更容易。

我們稱之為非線性問題,你必須實時調整許多小變數,每個變數都會影響其他變數,“他說。 “這不僅僅是因為你只使用了其中的10%,而是你可能沒有使用正確的變數。 這就是人類過度供應的原因。 他們知道這是不對的。 但出於某種原因,他們不知道該怎麼辦。 ”

越來越多的供應商正在提供自動化工具和平台,以改善雲中的資源優化。 該系列包括 Cisco Systems 等知名供應商,以及 AppDynamics、Nutanix、AppTio、VMware 和 Flexera。 Cast AI 吹噓其平台可以使用 AI 技術為組織節省 50% 或更多的雲成本。 2023 年 11 月,該公司獲得資金支援,在 B 輪融資中籌集了 3500 萬美元,使籌集的總金額達到 7300 萬美元。

相關問題答案

    Kubernetes 集群常見操作的完整指南

    它涵蓋了 Kubernetes 集群管理的所有方面,並可作為快速參考手冊。翻譯自 Mohamed Ben Hassine 的 Kubernetes 集群中常見操作綜合指南。uninstall kubeadm reset cleanup kubeadm reset fmodprobe r ipipls...

    集群計算的四大優勢

    集群計算具有許多優勢 通過容錯和彈性實現高可用性 負載均衡和擴充套件功能以及效能改進。在討論系統的健壯性時,需要牢記一些重要的術語 可用性 系統或服務在一段時間內的可訪問性,通常表示為給定年份正常執行時間的百分比 例如, 的可用性,或 個 彈性 系統從故障中恢復的能力。容錯 系統在發生故障時繼續提供...

    打造四個“雙百億”集群,新年如何啟動拱墅?

    日前,拱墅區召開區委一屆五中 擴大 會議暨區委經濟工作會議。會上,拱墅明確了新一年經濟發展目標 地區GDP增長 左右,規模以上工業增加值提高 服務業增加值增長 數字經濟核心產業增加值增長 在全會報告中,記者感受到了拱墅今年繼續在主軌道上發力的決心 積極聯動全市 五大產業生態圈 集中優勢資源打造數字經...

    目前農村地區存在三大惡習

    春節將至,農村社會的三大不正之風亟待及時整治。首先,比較的趨勢在農村地區很普遍,無論是婚禮 葬禮 上學等重要場合,人們都想舉辦大型的慶祝活動來顯示自己的地位和財富。因此,很多人不惜承擔債務,以確保現場的規模不遜色於別人。這種比較心態不僅加重了農民的經濟負擔,還可能導致社會風氣的惡化。其次,打麻將和紙...

    比亞迪豹方程式響應油耗測試 存在大量異常駕駛行為

    中新經緯月日晚間,豹式方程式汽車官方微信發布油耗測試 宣告稱,資料顯示,該車當天存在大量異常駕駛行為。資料 Formula Leopard Automobile官方微信公眾號。方程式 Leopard 說應該檢索 ..姚 強涉嫌駕駛機動車超速行駛 案件證據要求,並取得相關車輛執行資料。資料顯示,當天車...