隨著各行各業(yè)數字化轉型升級得加速,數據存儲容量和硬盤數量也在不斷增加,數據丟失事件時有發(fā)生,特別是硬盤故障事件,一旦發(fā)生,對于業(yè)務得影響不可估量。
超融合在磁盤故障提前檢測及處置方面是如何做得?今天就跟大家揭秘信服云得卡慢盤監(jiān)控和隔離機制。
深信服超融合持續(xù)對主機上得硬盤進行IO級監(jiān)控,如發(fā)現有卡盤或者慢盤,就會對硬盤進行隔離處理,避免繼續(xù)有IO落入該硬盤導致業(yè)務卡死或者變慢。超融合卡慢盤檢測隔離機制在應用過程中分為監(jiān)控、識別和處置三個階段。
一、監(jiān)控
針對磁盤卡慢故障模式復雜得問題,多維度檢測確診。
超融合采用了Linux通用得工具和信息,包括內核日志分析、smart信息分析、硬盤IO監(jiān)控數據分析等從多個維度精確定位故障硬盤,真正實現不依賴特定硬件工具、兼容性廣得軟件定義可靠性。
二、識別
對識別卡慢盤得模型進行細致打磨:超融合卡慢盤檢測機制在識別階段,使用了《卡慢盤識別與處理方案》《一種卡慢盤識別處理方法、裝置以及存儲介質》《一種慢盤故障精準識別和診斷方法》等專利技術,制定出了更加精準得卡慢盤識別模型,使卡慢盤得識別準確率在99%以上。最終將卡慢盤分為三種類型:卡慢、嚴重慢盤、輕微慢盤。
三、處置
超融合針對不同類型得卡慢盤采用不同得處置方法,避免業(yè)務數據落在卡慢盤上,保障業(yè)務數據安全。在上述前提下,盡可能保障業(yè)務正常對外提供服務。
超融合針對不同類型卡慢盤處置流程如下:
(1)輕微慢盤
輕微卡慢對業(yè)務性能影響較小,優(yōu)先保障業(yè)務運行。超融合會在WEB控制臺進行告警,并通過預先設置好得感謝原創(chuàng)者分享、短信等方式發(fā)送給管理員,管理員根據情況進行人工處置。人工處置操作包括手動隔離、替換硬盤等。
(2)嚴重慢盤
在對端副本正常時,將該硬盤從系統中隔離。新數據多副本寫入時,寫入到其他健康得硬盤上,業(yè)務讀取該盤數據時,主動切換到另一副本讀取。同時觸發(fā)數據重建,保障數據得安全性。
在對端副本業(yè)務異常時,優(yōu)先保障業(yè)務運行,超融合會在WEB控制臺進行告警,并通過預先設置好得感謝原創(chuàng)者分享、短信等方式發(fā)送給管理員,管理員根據情況進行人工處置。
(3)卡盤
在對端副本正常時,將該硬盤從系統中隔離,新數據多副本寫入時,寫入到其他健康得硬盤上,業(yè)務讀取該盤數據時,主動切換到另一副本讀取,同時觸發(fā)數據重建,保障數據得安全性。
在對端副本異常時,第壹次出現卡慢場景優(yōu)先保障業(yè)務運行。超融合會在WEB控制臺進行告警,并通過預先設置好得感謝原創(chuàng)者分享、短信等方式發(fā)送給管理員,管理員根據情況進行人工處置。1小時內出現3次硬盤卡慢時保障數據安全,將該硬盤從系統中隔離。
綜合實際測試效果,在未開啟卡慢盤檢測及處置功能前,在硬盤出現卡慢時,IO多次出現斷崖式下降,業(yè)務持續(xù)受到影響。開啟功能后超融合在硬盤卡慢亞健康狀態(tài)出現后能夠在1分鐘內檢測到并進行隔離處置,隔離后業(yè)務IO恢復穩(wěn)定,整個過程虛擬機不出現HA,降低了卡慢盤對業(yè)務性能得影響。根據深信服統計,2021年卡慢盤引發(fā)得業(yè)務中斷問題數下降60%。
以上就是本期《信服云黑板報》得分享,感謝對創(chuàng)作者的支持“深信服科技”感謝對創(chuàng)作者的支持,可以持續(xù)獲取更多技術干貨內容哦!