運營總監讓我自己管理40,000臺伺服器,他是在胡說八道嗎?

Mondo 科技 更新 2024-03-04

最近,我在知乎上看到了這樣乙個問題:

無論是例項還是虛擬機器,乙個運維可以管理4萬台伺服器嗎?

主題:我有點迷茫,我想問乙個人真的能管理40000臺伺服器嗎? 不管是例項還是物理機。 國內有哪些廠商擁有如此大規模的伺服器機群和集群? 大型製造商真的可以由乙個人完成整個管道的開發、測試和線上維護嗎?

秉承和平交流的學習態度,我們精選了幾位知乎網友的精彩答案,分享給大家學習交流(不漲不上,不引戰):No.1知乎網友:匿名使用者經過10多年的老舊運維,目前管理著近1000臺物理機,每年新增約100臺,3個機房報廢約20臺。 以穩定和成本控制為核心,負責IDC貨架規劃、網路規劃、裝置採購、貨架部署、安裝交付等工作,主要工作如下:每年年底,至少花乙個月的時間在預算上,包括 IDC 租賃、頻寬、租用線路、裝置要求和保修期外裝置的備件等......裝置硬體故障維護,每月約30次裝置硬體故障,硬碟和記憶體最多,其餘為主板、CPU、風扇。 某些重要服務(如資料庫)可能會影響業務。 處理步驟目前還沒有自動化,要做完了,人手不夠(自動採集日誌報修,投保後直接發維修工單)。 採購和上架是每季度一次,從啟動到交付,費時費力。櫥櫃空間可以繼續放在貨架上而不會壓倒嗎? 如何讓套頭衫盡可能短? 如何一直分配 CPU C0 機器? 入場CMDB手冊資訊有點......如果沒有自動化系統,機器的種類太多了,在隨後的規格下可能會好得多......資源控制、申請資源後發放許可權、特殊監控需求、資源變更、使用情況跟蹤......沒有自動化,資源管理的整個過程都在做。 網路類現在有專門的網路管理員,可以不用管,這部分工作需要一些精力。 我也負責各種中介軟體,而且是我乙個人負責的,我去找領導把部分中介軟體扔掉了。 這麼說吧,有這麼多的秤機,只要一台硬體故障,晚上第一時間報警,就算有硬碟故障,RAID也不必處理,也會讓人筋疲力盡。 每月約300個工作小時。 如果有 4w 虛擬機會更好,但不知道是不是我不做,之前做過的最大虛擬機器是 3000,業務比較單一,Puppet 搞定了。

No.2知乎網友:小鳥嘎嘎

之前,我不被允許招募外人,而且HC有限,所以我和另乙個小弟弟一起工作。 從收貨,到五金拆卸、機貨上架、貼標、供電、機房擴建、空調、系統安裝、服務安裝、更新迭代、系統版本迭代、監控、報警、日誌等,都是我們自己完成的。 可以說,從底層IDC,到系統,再到應用,都要做運維平台的產品,勉強算得上是全棧運維。 當時物理伺服器總數在100多台或不到200臺,如果算上系統(因為有虛擬機器,docker可以砍掉),大概是500 600臺左右,資源池中很多沒用的閒置機器都不算在內。 如果是新機器,那麼100 200臺物理機的工作量幾乎飽和了; 如果是舊機器,兩個人絕對不夠。 為什麼是 2 人而不是 1 人? 做運維的同學都知道乙個高可用性寫的概念**可以是乙個人,做產品可以是乙個人,做測試也可以是乙個人但運維必須成對進行:這不僅僅是乙個扛不動伺服器的人,掉落的時候損失了上萬元; 並且運維本身就是緊急情況,我上廁所,外面的交通是**,沒有人在緊急情況下,還有誰來處理呢? 就算你給睡著的老闆打電話**,也得有人通知你 後來,我去了一家大廠做SRE,乙個300人的大部門。 無論哪個團隊的SRE都會被分配到值班,進行運維,也就是:穩定性保障。 兩個以大詞開頭的部門,加上國際,乙個部門的碼頭工人總數均勻地分布在人的頭上不能是4w的人,1w的人就算是好的。 這樣一來,大家還在吐槽,手機經常半夜被吵醒! 如果你不接,釘釘也會提醒你,很煩人! 這導致了 SRE 的普遍壞脾氣! 說到這裡,你知道,SRE不對機房負責除了基礎設施專業的學生,他們中的大多數人只關注應用程式,這已經少了很多工作但我憋不住,我......不能一直抱怨

No.3知乎網友:木村星辰

我乙個人負責 6,000 臺物理機器。 硬體哪部分報警,什麼變化,不用就送整機維修。 可以管理軟體以開啟指定數量的 KVM 或安裝指定的 docker 映像。 網路上的所有交換機都是中繼,並且計算機上的 KVM Docker 配置為指定的 VLAN。 路由器無關緊要,運營商處理 BGP。 機房只掃地板,不擦灰塵。 有空的時候可以自己做資料遷移,沒空可以要求業務部門做或者延遲,自己做可以打包發布。 工作時間是免費的,只需在72小時內與警察打交道,想去就去。

知乎網友No.4:三大尷尬

不可能,有了這麼多的伺服器,沒有人可以單獨管理硬體,更不用說其他方面了。 40,000臺伺服器,加上機房內的配套交換機、路由器、儲存裝置、UPS電源、空調、安防裝置、消防裝置等。 這個裝置的數量是可怕的。 即使單個裝置出現問題的概率很小,但數量增加後,幾乎不可避免地會出現問題。 僅靠每天處理硬體問題無法解決。 每個硬體仍然有使用壽命,當使用壽命結束時需要更換。 當需要更換時,乙個人根本無法處理這個數量。 裝置是分批來的,更換也是分批的。 怎麼可能讓業務停止並等待您慢慢更換裝置? 這個金額肯定不是乙個簡單的系統,所以讓我們來看看保護。 按照保密保護的要求管理機房,不僅僅是管理裝置是否可用,更要有制度、流程、安全策略。 就算你是一頭大牛,也可以自己做,但總要花時間,做個評估,一兩個月就沒了。 你有時間做其他事情嗎? 我認為發表評論的人是乙個擁有 40,000 臺伺服器的團隊中的乙個人。 至於他有沒有許可權管理4萬台伺服器,我不相信,正常運維不可能給乙個人這麼多伺服器。 必須有權力下放,不同的人管理不同型別的裝置,移動伺服器也必須得到批准。 如果我是電源經理,有40000臺伺服器插在電源裡,我還負責40000臺伺服器,那我就不說了。 No.5知乎網友:karlestira

4W物理機? 僅僅向領導報告就可以殺死你。 另外,4w物理機是什麼概念? 常見的純CPU雙通道2U機都有500W的功耗,4W是20MW,算上各種UPS、空調、儲能、網路,可能要去50MW。 如果商業用電是一塊,機房滿載,電費每天100W以上。 這麼大的事,再僱兩個人不是很香嗎?

No.6知乎網友:zhyllhhaaoo40 足以讓你喝一壺。 機房的貨架,各種跳線......把你折磨致死。 4W站,一人?? 你不是在說相聲嗎?

No.7知乎網友:吃鐵獸

別管幾個伺服器,4個或者4萬個,乙個人,就算是5*8的全職值班也很難保證。 更不用說這個人受傷和辭職造成的空缺......要有一支有一定穩健性的團隊! "乙個運維人員可以管理4萬台伺服器嗎? "歡迎在留言區交流,分享您的經驗 參考資料丨 DevOps技術棧二次整理丨DBAPLUS社群**丨**:知乎com 問題386653243答案 2117913692*僅供參考和學習之用,並不代表 DBAPLUS 社群的立場! DBAPLUS 社群歡迎 editor@dbaplus 技術人員的貢獻cn

相關問題答案

    2023 確定性運營白皮書 讓運營成為智慧型世界轉型的加速器

    今天分享的是O M行業研究報告 確定性運維 穩定可靠篇,讓運維成為智慧型世界轉型的加速器 報告由華為雲製作 研究報告內容摘要如下 穩定性和可靠性 的主要挑戰。隨著業務的快速迭代和敏捷發展,傳統運維面臨軟體快速上線的挑戰,模糊了運維與研發的界限,業務上線速度與現網穩定性之間的矛盾難以調和。華為雲將這些...

    華能中標8艘海上風電場運維船租賃

    月日,華能集團電商平台發布華能江蘇公司啟東H H海上風電場啟東H海上風電場 冠雲海上風電場 大豐海上風電場 盛東如東海上風電場 關於公布年射陽海上風電場 如東八仙角海上風電場運營維護船舶租賃服務招標結果的公告。公告顯示,江蘇創淼海洋工程成功中標啟東H H海上風電場和啟東H海上風電場,中標金額分別為萬...

    生成式AI在IT運維中的三大應用場景

    IT 運營團隊已經在使用生成式 AI 來改進以下領域的工作流程 自動狀態更新 事後調查和分析以及流程自動化。翻譯自 Dormain Drewitz 的 Itops 中生成式 AI 的三個用例,他是 PagerDuty 的產品營銷和開發人員關係副總裁。在加入 PagerDuty 之前,她曾領導 VMw...

    “我離婚了,損失了1億”。

    這個故事告訴我們財產保護的重要性,尤其是在婚姻關係中。新聞中的富家女沒有意識到這一點,因為她太信任男人了,男人也用她的信任和愛來欺騙她。這也讓我們想起了另一次熱搜 離婚後,女方要求對方返還萬元的嫁妝。這個女人在離婚時主動要求對方退還彩禮,也是為了保護自己的財產。這是一種積極的做法,因為在婚姻中,財產...

    “我父親的錯,我為什麼要為此付出代價”? 考官說了一句話,同學們都很慚愧

    我父親的錯,我為什麼要為此付出代價 考官說了一句話,同學們都很慚愧 高中生迎來了開學季,高考也越來越近了。他們將進入最後的衝刺階段,通過三場模擬考試測試他們的進度。對於學生來說,高考不僅是一場宿命的考試,更是實現夢想的關鍵。從很小的時候起,許多學生就夢想著申請自己喜歡的大學和專業。一些學生夢想成為人...