如何利用故障根本原因分析快速定位故障原因?

Mondo 汽車 更新 2024-02-01

背景

眾所周知,變化是網路環境不穩定的關鍵因素,研究表明,70%的線上故障是由某種變化引發的。 因此,當環境收到“關閉”警報時,管理員的直覺是懷疑最近是否有更改。 此時,我們經常需要主動查詢變更歷史,確認下一次變更的計畫,這是乙個繁瑣且效率低下的過程。

環境故障的另乙個原因是服務所在基礎結構的負載和飽和度,這會影響服務的容量和效能。

我們希望能夠分析環境並分析警報是由於更改還是由於系統負載造成的。 分析結果可以以直觀的拓撲形式呈現,我們希望看到服務、它們所依賴的中介和基礎設施之間的關係,以及哪裡有變化或例外。 如下圖所示:

此外,它可以智慧型地連線告警服務周圍的所有業務除錯環節,並分析異常的可能原因

這種能力是EasyOps平台分析故障根本原因的能力。 讓我們來看看如何配置和製作它們,以及該圖代表什麼。

實踐

首先,定義服務的 SLI。 我們選擇檢測程式碼作為服務能力的 SLI,我們認為如果檢測程式碼不為 0,則表示服務不可用。 此時,告警系統將觸發嚴重性級別故障,管理員將收到該故障。

此 SLI 已內置於平台中,需要額外的配置。 我們需要做的就是定義撥號測試收集策略和告警規則。 如:

注意:選擇的告警資源型別是服務模型下的模型,在本例中為 HTTP 服務。 平台定義僅對服務資源進行根本原因分析。

只需簡單的兩步配置,您就可以進行根本原因分析!

效果解釋

一旦HTTP服務傳送告警,我們可以通過點選【故障分析】跳轉到根本原因分析。

以開頭的圖表為例:

從上圖可以看出,紅色標示的服務是告警服務,下面是圍繞該服務的一系列中介和排程服務,也呈現了服務與服務之間的關係。 拓撲的最低層是基礎結構,即主機。

從這個拓撲中,我們可以看出,故障原因的概率是兩個作業系統主機進行了更改。 結合右邊的傳播圖,進一步明確了變化的時間點和失效點

從上圖可以看出,變化發生在1 18 ,22:03:30,故障發生在1 18 ,22:04:09,因此很明顯,故障是由變化引起的。 在上述情況下,確實有缺陷的 ** 包在更改時被釋放到生產環境,這使得服務不可用。

在明確故障原因後,管理員可以快速決定後續步驟,例如及時回滾以減少故障修復時間並改進 MTTR。

相關問題答案

    因行李分揀失敗而陷入動盪的南非約堡國際機場已恢復正常

    中新社約翰尼斯堡月日電 記者王習 當地時間月日,南非機場公司 ACSA 宣布,南非約翰尼斯堡奧坦博國際機場行李分揀系統持續近一周的技術故障已基本修復,機場逐步恢復正常。嚴重的技術故障始於 月 日,並持續了幾天。由於行李分揀系統嚴重故障,以及平安夜有多名乘客無法按時找到行李,導致大量航班無法正常起飛和...

    使用風水飾品 如何使用貔貔葫蘆等飾品來增加財富?

    使用風水飾品來增加財富是許多人追求財富增長的常見策略。其中,貔貅 葫蘆被視為吸財能力很強的風水飾品。下面將從命理學和風水的角度解釋如何使用這些飾品來增加財富。從命理學的角度來看,貔貅被認為是能夠吸收財富的神獸,而葫蘆在古代傳統中被認為是財富的象徵。因此,將貔貅和葫蘆作為風水裝飾品放在財富或財富領域有...

    如何使用 Recordset 物件開啟資料庫中的資料記錄集

    VBA 資料庫解決方案教程 版權所有 是我推出的第二套教程,目前正處於第二版修訂版中。這套教程定位於中級水平,是學字典後的另乙個專題。資料庫是資料處理的有力工具,教程詳細介紹了使用ADO連線ACCD和Excel的方法和示例操作,第一版教程的修訂內容主要是完成所有程式檔案的位和位Office系統測試。...

    王室離奇內幕 梅根離開前,她用荷里活手段對付凱特,揭開了這個秘密

    梅根 馬克爾和凱特王妃之間公開而秘密的競爭,成為近年來王室的熱門話題。梅根一直想超越凱特,在王室中展現自己的才華。但王室的公關團隊建議她 什麼都不做 以此來化解外界的負面情緒。另一方面,梅根堅持採取私下行動,試圖通過改變形象和推廣她的慈善工作來贏得更多關注。然而 這一系列行為遭到了外界的批評和質疑。...

    本田因燃油幫浦故障風險而在全球範圍內召回約450萬輛汽車

    據IT Home月日報道,據路透社報道,本田的美國子公司因燃油幫浦故障風險,正在全球召回約萬輛汽車。此次召回包括 美國有萬輛汽車,本田汽車在年召回了,輛美國汽車,年召回了,輛汽車。在提交給美國國家公路交通安全管理局 NHTSA 的檔案中,本田表示,本田經銷商將更換燃油幫浦模組計畫於年月初通知車主召回...