防止雙節點集群下腦裂的方法和裝置,電子裝置和儲存介質

Mondo 科技 更新 2024-02-01

安巢雲技術。

該技術由安超雲交付,並參與評選“資料猿年度金猿規劃活動——2023大資料行業年度創新技術突破榜暨獎項”。

節點群集由兩台計算機組成,每台計算機稱為群集中的乙個節點。 由於網路或系統的故障(例如,網路中的某個交換機出現故障),乙個集群可能會被分成兩個節點組,這稱為腦分裂。 當集合拆分時,兩個節點組中的每乙個都無法通過心跳資訊或租約資訊檢測到另乙個節點組的存在,並且會假設其他節點組的節點出現故障,因此在同一時間段內,這些節點組中的節點可能會發起對共享儲存資源(如儲存磁碟)的訪問, 這將導致資料訪問錯誤。在這種情況下,集群的管理軟體通常會使用一定的演算法來判斷哪個節點組獲勝並繼續原始集群的工作,而失敗節點組中的節點需要重啟並重新加入集群。 在集群啟動過程中,由於很多狀態非常不穩定,仲裁程式容易誤判,導致集群裂腦,而本發明可以解決這個問題。

本發明解決了以下兩種裂腦場景。

1)裂腦場景1

1.問題場景。

按照上表的邏輯。 當左側預設節點儲存和業務程式服務異常(紅色感嘆號1)時,右側伺服器2接管服務,切換到獨立節點。 此時,有 2 次故障,2 臺伺服器之間的心跳再次中斷(紅色感嘆號 2)。 然後自動恢復左側預設節點的儲存服務和業務程式。 左邊的第四個場景也滿足了上表的邏輯,也切換到了主節點。 有兩個主節點,兩個節點的服務繼續向儲存寫入資料,因為兩個物理機的儲存服務無法通過心跳形成儲存集群,資料無法同步到對端,導致集群裂腦。

2.關鍵技術。

新增判斷條件,兩台物理機上的 HA 服務定期檢查儲存和服務程式,如果出現故障,則將 service-fail-tag 寫入本地節點。 如果切換時本地存在 service-fail-tag,則即使滿足條件也不會進行切換。

3. 編寫標籤流程。

每個節點的 HA 服務的執行緒執行以下操作:定期檢查當前節點的儲存服務是否正常,如果儲存異常,則將 service-fail-tag 檔案寫入本地 var lib ha-service 目錄下: 根據上表,如果當前節點滿足切換要求,則當前節點有var lib ha-service service-fail-tag檔案,則禁止當前節點切換到主節點。

4. 刪除標記程序。

當前節點的服務恢復正常,當前節點與其他節點形成集群模式。 如果當前節點上存在var lib ha-service service-fail-tag檔案,請刪除該檔案,以確保下次切換順利進行。

2) 裂腦場景 2

1.問題場景。

如表1所示,當出現以下故障時,兩個節點切換到主節點。

如果預設節點物理機1的所有網路故障都切換到表1場景2中的主節點。

再次發生次級故障,物理機2重新管理網路故障。

如果預設節點物理機1的管理網路恢復,物理機1也會按照表1和場景2中的邏輯切換到主節點。

2.關鍵技術,增加附加條件解決問題。

謹防心跳網路故障,管理網路正常。 您需要將管理網路通過SSH連線到對端,檢查對端的狀態,並通過檢查對端本地是否有other-is-master-tag來檢查對端是否為主節點。

3. 設定 other-is-master-tag 程序。

謹防心跳網路故障,管理網路正常。 您需要通過管理網路對 Peer 進行 SSH 處理,以檢查對等體的狀態。

檢查前,請在本地 var lib ha-service 目錄中設定 check-tag。 指示本地測試已啟動。

檢查對等節點的狀態。 有關詳細資訊,請參閱下文第 4 小節。

如果本地沒有 other-is-master-tag,則在本地設定 failover-tag 【切換是乙個程序,切換前寫標籤,切換成功後刪除標籤,防止切換,導致誤報],本地切換到主節點。

如果本地交換機是主節點,則無論切換成功還是失敗,也無論程式是否成功結束,都應刪除故障轉移標記。 否則,請刪除 failover-tag 並重新開始。

4.測試程式的詳細說明。

如果正在檢查測試,請等待 30 秒,然後重新檢查,否則輸入本地 write check-tag 進入檢查過程。

確定對方的故障轉移標記 [flag is switching] 是否存在,如果存在,程式返回開始重新檢查;

如果對方是主節點,則在本地端寫 other-is-master-tag,否則在對端寫 other-is-master-tag。

寫入 other-is-master-tag 後,刪除 check-tag 標籤。

5. 恢復環境後,刪除 other-is-master-tag 邏輯。

當前節點的服務恢復正常,當前節點與其他節點形成集群模式。 如果當前節點上有var lib ha-service other-is-master-tag檔案,請刪除該檔案,以確保下次切換順利進行。

專利申請號 公開號:cn115269248a

團隊負責人姓名:吳業良

吳業良,研發中心技術架構部負責人,在雲計算領域擁有10多年的架構設計和研發經驗。 擅長分布式集群、作業系統、虛擬化、資料庫等專業領域,作為第一作者在雲計算領域擁有四五十項發明專利。

團隊其他重要成員姓名:胡進、李瑞友、石永輝。

聯絡:安朝雲.

安巢雲軟體(以下簡稱“安巢雲”)是一家數字技術基礎設施提供商,匯聚了國內外頂尖的雲計算專家和高階工程師,致力於為政企客戶打造高效能、高可用、高效率、完全適應、高效管理和敏捷的IT基礎設施平台。 基於“全核心全棧”、“全生態”、“多雲管理”的能力,安潮雲打造的“新創雲基地”解決方案系列產品及解決方案,整合了安潮雲自主研發的雲作業系統、虛擬化平台軟體、分布式儲存軟體、雲管理平台、桌面雲軟體等10餘個子產品, 核心**自主率由權威機構評估85%以上。基於國產六大晶元和五大作業系統,Archeros可以全面統一管理、排程、容災和管理向下,向上完全相容各種應用軟體,有效遮蔽底層複雜基礎設施。

該專利在高可用性系統中實現了雙節點模型,並避免了裂腦問題。 這意味著即使乙個節點發生故障,另乙個節點仍然可以正常執行,從而防止系統停機和資料丟失。 該技術非常實用,對於關鍵業務系統的穩定性和可用性至關重要。 該專利的創新性和實用性值得稱讚,可為高可用儲存系統的設計和實現提供有益的參考。

大資料局。

該技術實現了雙節點高可用系統,成功解決了裂腦問題。 通過確保節點之間的連續通訊和冗餘資料儲存,該技術可防止系統故障和資料丟失。 這種創新方法為關鍵業務系統提供了更高的穩定性和可用性,使它們能夠繼續執行和維護資料完整性。 該專利的價值在於它為高可用性儲存系統開闢了新的途徑,並為開發人員提供了更可靠的解決方案,從而提高了企業的業務連續性和使用者體驗。

一家證券公司。

相關問題答案

    什麼是集群?定義雲集群和節點

    在過去十年中,計算機集群 尤其是 Kubernetes 集群 的採用率顯著上公升。初創公司和科技巨頭都在利用基於集群的架構在雲中部署和管理他們的應用程式。但什麼是集群?集群和容器是什麼關係?為什麼要考慮使用群集來託管自己的應用程式?概括地說,計算機群集是一組並行執行以實現共同目標的兩台或多台計算機或...

    “雙減”背景下小學數學綜合實踐活動的教學設計策略探索.

    一 引言 在 雙減 政策的背景下,小學數學教育面臨著如何有效減輕學生作業負擔 提高教學質量和效率的挑戰。其中,小學數學綜合實踐活動作為一種重要的教學手段,對提高學生的數學素養和綜合能力具有重要作用。因此,雙減 背景下小學數學綜合實踐活動的教學設計策略,對推動小學數學教育改革發展具有重要意義。.小學數...

    江鈴順達雙排掃雪機採用下翻式避障方式

    江鈴順達雙排座方雪犁採用向下避障方式,具有自動翻轉和自動復位功能,以整體避障 二翻 三翻的形式向人展示獨立避障。刷子採用聚丙烯和彈性鋼絲製成,清潔效果顯著,實用性強。餐邊櫃 m 底板m防滑板,配有鎖緊裝置,安全可靠。異形板雪鏟具有精確的形狀和尺寸,除雪寬度範圍廣,以及 個雪鏟刀片。除雪板上部為整體式...

    年終黑馬!“元夢之星”的泛娛樂體驗,加持雙正版

    在遊戲世界中,新遊戲的公測版往往是玩家探索和探索的新領域。月日,元夢之星 正式開啟公測之旅,從此進入所有玩家的關注。這款遊戲的問世引起了廣大玩家的熱烈反響和高度關注。夢之星 的公測版,顯然是經過精心設計,布局巧妙。它不僅繼承了 糖豆人 的經典角色和玩法,還聯名了 打敗了人類 等多個IP,通過獨特的U...

    《元夢之星》“引爆”全網雙重正版授權下的派對遊戲新探索

    自從 糖豆人 和 人類戰敗以來 官方宣布授權以來,元夢之星 就一直備受玩家期待,在月日上線後,玩家們對它在玩法 角色扮演 社互動動等方面的豐富性非常滿意。元夢之星 在玩法上獨樹一幟,不僅引入了多種模式和場景,還引入了許多創意十足 獨具特色的玩法。排位賽的玩法要求球員靈活運用各種技巧和策略來取勝,這對...