Bonree ONE 如何使用 5 臺機器資源來支援 2000 個探頭同時啟動?

Mondo 科技 更新 2024-02-09

2023年10月20日,博瑞資料2023秋季產品發布會圓滿落幕,新一代一體化智慧型觀測平台Bonree One 2023 Autumn發布,重點公升級資料採集、全域性拓撲、資料分析、會話回放等多個功能模組,為組織提供更輕量、更有序、更精準的超智慧型運維體驗。

文章資訊

作者:博瑞資料中心-Holly數字智慧型中心大資料負責人;

本文由 InfoQ 發表。

背景

日誌、指標和呼叫鏈是可觀測性成功的三個要素,而這些要素的實現離不開資料採集、探頭採集和上報資料、後端服務接收和處理分析資料以實現可觀測性。 一般情況下,伺服器效能資料、服務相關資料、服務間呼叫資料都是通過探針採集和上報的,經過ETL處理後,成為可觀測性分析的重要依據。

探頭收集的資料量取決於兩個因素:

取樣率:取樣率越高,資料量越大,對應的可觀測性分析越全面。

服務呼叫量:業務服務呼叫頻率越高,對應的資料量越大,對應的可觀測性分析也會越複雜。

2000探頭的難度是什麼?

由於私有化部署資源有限,需要盡可能滿足企業的監控需求,因此博瑞資料的內測將以5臺機器的集群為部署標準,在資源固定的前提下,隨著探針數量的增加,主要難點如下:

業務場景有高峰波動,高峰時段服務呼叫是低峰時段的2倍+倍

業務資料同時儲存在多個業務場景中,包括呼叫鏈資料、指標資料、服務快照資料等。

這五颱機器是控制器服務、告警服務、業務查詢服務、資料呼叫鏈儲存、資料快照儲存、資料指標儲存、訊息中介軟體等多種業務的混合體,在資料量寫入較大的情況下,CPU、記憶體、磁碟IO的消耗是搶占的,影響了服務的穩定性。

如何優化**

鑑於上述困難,首先想到的是**,即減少服務元件的數量,減少服務資源的搶占。 二是業務儲存遷移,摒棄高消耗元件,使用低消耗元件來滿足業務需求。 最後,在合理的資料儲存方案的前提下,對儲存服務本身的效能進行優化,以滿足業務查詢的穩定性。

減少元件數量

Hadoop 儲存套件節點資料量大,是 J**A 服務,消耗大量資源,需要大量記憶體。 Hadoop的主要業務端是AI服務,AI團隊基於自研的資料處理框架構建了新一代的SwiftAI服務,只有一種元件型別,至少兩種部署服務。

業務儲存優化

目前,APM服務的儲存分為指標資料、跟蹤和快照三部分。 目前分別採用三種不同的儲存系統對資料進行支撐:指標資料儲存在ClickHouse中,Trace使用ES,快照資料儲存在自研物件儲存系統中。 在實際業務場景中,多個儲存引擎交叉訪問,在估算資源時沒有合理的尺度來衡量資源的上下限。 如果在一台機器上部署多個儲存引擎,勢必會影響服務的穩定性,因此減少APM服務的儲存元件成為可行的解決方案。

探針呼叫鏈資料基於ES儲存,存在以下痛點:

跟蹤資料的寫入時間與關聯的快照資料之間存在差異,並且寫入基於 ES 的資料時存在延遲。 ·ES 消耗大量資源,但消耗大量 CPU 和 IO,影響其他服務的穩定性。·ES的查詢效率不穩定,隨著資料量的增加,甚至可能查詢不對。

探針呼叫鏈的快照資料基於物件儲存系統進行儲存,存在以下痛點:

寫入不穩定,並且存在故障。 ·它消耗大量的CPU和I/O,並且很容易達到瓶頸。

鑑於前兩個元件存在明顯的痛點,將資料遷移到ClickHouse進行儲存,好處如下:

同時將Trace資料和關聯的快照資料寫入ClickHouse,以保證關聯資料的一致性。 ·ClickHouse寫入穩定,即使是檢索資料,資源消耗小。·ClickHouse讀取穩定,ClickHouse支援查詢熔斷、資源限制等方式,提高ClickHouse查詢的穩定性。·基於合理的批量積累策略,ClickHouse整體資源消耗穩定,毛刺點波動小。

儲存服務優化

如果將相關業務儲存集中起來,勢必會對ClickHouse服務產生影響,ClickHouse服務的優化和運維監控將更加重要。

在優化方面,我們從以下三個方向入手:

優化業務引數

外部分組依據前的最大位元組數:當RAM消耗超過此閾值時,分組依據會將多餘的臨時資料輸出到檔案系統中,並在磁碟上進行處理,通常建議配置為當前服務記憶體的80%。

外部排序前的最大位元組數:當涉及資料排序時,當 RAM 消耗超過此閾值時,Order By 會將多餘的臨時資料輸出到檔案系統中,並在磁碟上排序,通常建議配置為當前服務記憶體的 80%。

最大記憶體使用量:單個查詢可以使用的最大記憶體,通常建議為當前服務記憶體的 80%。

最大執行時間:查詢可以執行的最長時間,由服務響應時間的上限決定。

合理使用例項化檢視、索引和投影

針對不同的場景採用不同的加速方式,解決查詢效率問題。

高頻查詢應充分利用主鍵索引。

對於主鍵索引無法滿足的高頻查詢,可以使用索引來加速。

在排序操作方面,使用投影和物化檢視來加快速度,並且首選投影。

無法使用投影的場景可以使用例項化檢視。

監控、容錯支援。

為了解決多業務接入的複雜影響,需要對集群進行充分的監控,在容錯方面需要考慮更多的因素。

監測

主要跟蹤監控有寫和讀兩個方向,如每分鐘寫入次數、寫入消耗的時間、查詢QPS。

監控節點的狀態,如服務負載、合併任務數量、部分數量等,這些指標可以及時發現服務穩定性風險。

監控集群的餘額,如分段資料同步的延遲時間、各節點的查詢餘額、各節點的寫入餘額等,防止集群偏差。

容錯

單節點寫入節點異常不會影響整體服務寫入。

clickhouse單節點異常不會影響整個集群的寫入或讀取。

影響

AI 元件**。

將跟蹤跟蹤等相關資料遷移到 ck

為了實現最多可以支援2000個探頭的5個簇,我們首先需要做的就是減去,以減少元件之間的衝擊,這樣單個元件才能發揮更大的效率。 然後,圍繞這個元件,構建乙個更全面的生態系統,包括監控、運維和運營。 最後,圍繞業務使用場景進行深度優化,保證整體業務穩定性。

未來,我們將在ClickHouse核心上下功夫,不斷拓展ClickHouse的使用場景,與開發者分享博睿資料在ClickHouse方向上的探索與實踐,幫助Boree One朝著更快、更準確、更穩定的方向走得更遠。

要了解有關Bonree One整合智慧型可觀測性平台的更多資訊,請單擊本文末尾的“閱讀更多”,免費**完整版《博瑞資料博瑞One整合智慧型觀測平台***》。

相關問題答案

    如何安裝win11 23H2專業工作站版與虛擬機器VirtualBox

    準備將電腦公升級到win,先來看看virtualbox虛擬機器的安裝情況,以下是win的安裝記錄,供大家參考。.開啟Oracle VM Virtualbox,點選 新建 在彈出的設定視窗中執行以下操作 名稱 盡量使用字母 數字 資料夾 設定為為虛擬機器保留空間的硬碟資料夾 虛擬光碟 找到你自己的 好...

    智信航飛機機身鉚孔,如何一機解決?

    在飛機生產中,一架飛機通常需要數百萬個鉚接孔,用於連線機身的各個模組,確保整個結構的堅固性和整合性。由於飛機的機身是模組化的分段組合,因此模組之間的連線要求極為嚴格。國產大飛機C 面對飛機機身各部位尺寸不同的情況,傳統的鉚接工作面臨著巨大的挑戰。每個零件的鉚接孔的大小和位置可能不同,因此需要一種可以...

    如何使用PLC提高破碎機的工作效率?

    使用PLC提高破碎機的工作效率,可以考慮以下改進 自動控制 採用PLC控制破碎機的各個操作步驟,如啟動 停止 調速等。通過編寫適當的程式,可以實現自動操作控制,減少人工干預,提高工作效率。 感測器和反饋 感測器安裝在破碎機的關鍵位置,如入口 出口 電機負載等,實時監測破碎機的狀態和工作引數。將感測器...

    如何在洗衣機裡洗衣服 詳細指南

    準備階段。在我們開始洗衣服之前,我們需要做一些準備工作。首先,檢查洗衣機是否乾淨。如果您在上次使用後沒有清理它,可能會有一些殘留的洗衣粉或汙漬。使用廣告amp 布擦拭洗衣機的內部和外部,以確保其清潔。接下來,檢查洗衣機的進水管和排水管。確保它們沒有扭曲或打結,並且沒有堵塞。這將保證洗衣機能夠正常執行...

    如何使用單槽超聲波清潔器清潔鍵盤?

    此前,研究人員發現,世界上最髒的東西之一不是糞便和汙泥,而是幾乎每個上班族每天都會碰到的鍵盤!鍵盤是我們在工作中需要接觸的工具,是藏匿汙垢和汙垢的好地方,每天沉積約g的雜物,包括但不限於頭髮 灰塵 菸灰 汗水 油脂 零食麵包屑.過去專家做過相關實驗,鍵盤上的細菌大約是正常情況的倍,馬桶的倍,更不用說...