安巢雲技術。
該技術由安超雲交付,並參與評選“資料猿年度金猿規劃活動——2023大資料行業年度創新技術突破榜暨獎項”。
節點群集由兩台計算機組成,每台計算機稱為群集中的乙個節點。 由於網路或系統的故障(例如,網路中的某個交換機出現故障),乙個集群可能會被分成兩個節點組,這稱為腦分裂。 當集合拆分時,兩個節點組中的每乙個都無法通過心跳資訊或租約資訊檢測到另乙個節點組的存在,並且會假設其他節點組的節點出現故障,因此在同一時間段內,這些節點組中的節點可能會發起對共享儲存資源(如儲存磁碟)的訪問, 這將導致資料訪問錯誤。在這種情況下,集群的管理軟體通常會使用一定的演算法來判斷哪個節點組獲勝並繼續原始集群的工作,而失敗節點組中的節點需要重啟並重新加入集群。 在集群啟動過程中,由於很多狀態非常不穩定,仲裁程式容易誤判,導致集群裂腦,而本發明可以解決這個問題。
本發明解決了以下兩種裂腦場景。
1)裂腦場景1
1.問題場景。
按照上表的邏輯。 當左側預設節點儲存和業務程式服務異常(紅色感嘆號1)時,右側伺服器2接管服務,切換到獨立節點。 此時,有 2 次故障,2 臺伺服器之間的心跳再次中斷(紅色感嘆號 2)。 然後自動恢復左側預設節點的儲存服務和業務程式。 左邊的第四個場景也滿足了上表的邏輯,也切換到了主節點。 有兩個主節點,兩個節點的服務繼續向儲存寫入資料,因為兩個物理機的儲存服務無法通過心跳形成儲存集群,資料無法同步到對端,導致集群裂腦。
2.關鍵技術。
新增判斷條件,兩台物理機上的 HA 服務定期檢查儲存和服務程式,如果出現故障,則將 service-fail-tag 寫入本地節點。 如果切換時本地存在 service-fail-tag,則即使滿足條件也不會進行切換。
3. 編寫標籤流程。
每個節點的 HA 服務的執行緒執行以下操作:定期檢查當前節點的儲存服務是否正常,如果儲存異常,則將 service-fail-tag 檔案寫入本地 var lib ha-service 目錄下: 根據上表,如果當前節點滿足切換要求,則當前節點有var lib ha-service service-fail-tag檔案,則禁止當前節點切換到主節點。
4. 刪除標記程序。
當前節點的服務恢復正常,當前節點與其他節點形成集群模式。 如果當前節點上存在var lib ha-service service-fail-tag檔案,請刪除該檔案,以確保下次切換順利進行。
2) 裂腦場景 2
1.問題場景。
如表1所示,當出現以下故障時,兩個節點切換到主節點。
如果預設節點物理機1的所有網路故障都切換到表1場景2中的主節點。
再次發生次級故障,物理機2重新管理網路故障。
如果預設節點物理機1的管理網路恢復,物理機1也會按照表1和場景2中的邏輯切換到主節點。
2.關鍵技術,增加附加條件解決問題。
謹防心跳網路故障,管理網路正常。 您需要將管理網路通過SSH連線到對端,檢查對端的狀態,並通過檢查對端本地是否有other-is-master-tag來檢查對端是否為主節點。
3. 設定 other-is-master-tag 程序。
謹防心跳網路故障,管理網路正常。 您需要通過管理網路對 Peer 進行 SSH 處理,以檢查對等體的狀態。
檢查前,請在本地 var lib ha-service 目錄中設定 check-tag。 指示本地測試已啟動。
檢查對等節點的狀態。 有關詳細資訊,請參閱下文第 4 小節。
如果本地沒有 other-is-master-tag,則在本地設定 failover-tag 【切換是乙個程序,切換前寫標籤,切換成功後刪除標籤,防止切換,導致誤報],本地切換到主節點。
如果本地交換機是主節點,則無論切換成功還是失敗,也無論程式是否成功結束,都應刪除故障轉移標記。 否則,請刪除 failover-tag 並重新開始。
4.測試程式的詳細說明。
如果正在檢查測試,請等待 30 秒,然後重新檢查,否則輸入本地 write check-tag 進入檢查過程。
確定對方的故障轉移標記 [flag is switching] 是否存在,如果存在,程式返回開始重新檢查;
如果對方是主節點,則在本地端寫 other-is-master-tag,否則在對端寫 other-is-master-tag。
寫入 other-is-master-tag 後,刪除 check-tag 標籤。
5. 恢復環境後,刪除 other-is-master-tag 邏輯。
當前節點的服務恢復正常,當前節點與其他節點形成集群模式。 如果當前節點上有var lib ha-service other-is-master-tag檔案,請刪除該檔案,以確保下次切換順利進行。
專利申請號 公開號:cn115269248a
團隊負責人姓名:吳業良
吳業良,研發中心技術架構部負責人,在雲計算領域擁有10多年的架構設計和研發經驗。 擅長分布式集群、作業系統、虛擬化、資料庫等專業領域,作為第一作者在雲計算領域擁有四五十項發明專利。
團隊其他重要成員姓名:胡進、李瑞友、石永輝。
聯絡:安朝雲.
安巢雲軟體(以下簡稱“安巢雲”)是一家數字技術基礎設施提供商,匯聚了國內外頂尖的雲計算專家和高階工程師,致力於為政企客戶打造高效能、高可用、高效率、完全適應、高效管理和敏捷的IT基礎設施平台。 基於“全核心全棧”、“全生態”、“多雲管理”的能力,安潮雲打造的“新創雲基地”解決方案系列產品及解決方案,整合了安潮雲自主研發的雲作業系統、虛擬化平台軟體、分布式儲存軟體、雲管理平台、桌面雲軟體等10餘個子產品, 核心**自主率由權威機構評估85%以上。基於國產六大晶元和五大作業系統,Archeros可以全面統一管理、排程、容災和管理向下,向上完全相容各種應用軟體,有效遮蔽底層複雜基礎設施。
該專利在高可用性系統中實現了雙節點模型,並避免了裂腦問題。 這意味著即使乙個節點發生故障,另乙個節點仍然可以正常執行,從而防止系統停機和資料丟失。 該技術非常實用,對於關鍵業務系統的穩定性和可用性至關重要。 該專利的創新性和實用性值得稱讚,可為高可用儲存系統的設計和實現提供有益的參考。
大資料局。
該技術實現了雙節點高可用系統,成功解決了裂腦問題。 通過確保節點之間的連續通訊和冗餘資料儲存,該技術可防止系統故障和資料丟失。 這種創新方法為關鍵業務系統提供了更高的穩定性和可用性,使它們能夠繼續執行和維護資料完整性。 該專利的價值在於它為高可用性儲存系統開闢了新的途徑,並為開發人員提供了更可靠的解決方案,從而提高了企業的業務連續性和使用者體驗。
一家證券公司。