RAID-6Plus:基于多故障降级的快速可靠编码方案
1. 引言
在大数据时代,数据可靠性成为存储系统亟待解决的关键问题。传统的RAID - 6虽因可靠性高成为存储系统的默认配置,但现代存储系统面临着更高的风险。为应对设备级故障,出现了如STAR、RTP等能处理三重故障的编码方案,然而这些方案存在诸多问题:
- 假设不符合实际 :假定故障是独立且瞬间发生的,不符合现代存储系统的故障模式,也不支持多故障降级。
- 忽略故障发生模式 :实际中99.75%的恢复是由于单磁盘故障,而三重全磁盘故障很少见,但RTP的第三奇偶校验盘仅用于处理三重故障,造成资源浪费。
- 未考虑混合故障模式 :实际中混合故障模式更常见,现有编码方案在处理这类故障时会过度使用第三奇偶校验盘。
- 重建窗口过大 :随着磁盘容量增加,重建窗口从几分钟增长到数小时甚至数天,导致系统性能严重下降和用户体验变差。
为解决这些问题,研究人员开发了RAID - 6Plus编码方案,它是RAID - 6的扩展,采用短组合方式有效重用重叠元素来重建第三奇偶校验盘,缩短了单故障的重建窗口,避免了多故障在重建窗口内重叠,提高了系统性能和可靠性。
2. 背景与动机
2.1 磁盘和SSD的故障模式
主流磁盘驱动器存在设备故障(全磁盘故障)和扇区故障。设备故障主要由硬件问题或人为失误导致,扇区故障可能由软件故障等多种原因引起,这些故障都会导致数据不可用。最新研究表明,多磁盘倾向于在相似的使用时长后出现
超级会员免费看
订阅专栏 解锁全文
2051

被折叠的 条评论
为什么被折叠?



