我们以采用上海川源国产自研“无共享对称式双活(active-active)架构”的新蓝宝全闪存阵列为例,向传统存储系统双活架构发起稳定性挑战。
Round 1: 控制器故障/控制器网络连接故障
上海川源全闪存储系统:I/O 会发生短时间的抖动(4 秒内),很快恢复。
传统存储系统双活架构:卷会进行故障切换,可能经历数十秒掉 0, 同时性能降级。
Round 2: 存储背板(或主板)和共享磁盘或扩展柜的故障
上海川源全闪存储系统:双节点对称架构,即使一个节点主板故障或扩展柜故障也不会造成数据丢失和对应用访问造成影响,因为数据是在两个节点都有一份。
传统存储系统双活架构:设计上可能存在单点故障,存储背板故障会造成整个存储不可用,应用中断。扩展柜故障会造成部分数据丢失风险和应用中断的情况。
Round 3: 1 块硬盘故障
上海川源全闪存储系统:重建开始,I/O 会发生短时间的抖动(4 秒内),很快恢复。
传统存储系统双活架构:系统会开始重建,性能直到重建结束前都会有降级。
Round 4: 2 块硬盘故障
上海川源全闪存储系统:如果在同一个节点则导致该节点离线,如果是两个节点各坏一块盘则等同于一块盘故障的症状,业务不停数据不丢。
传统存储系统双活架构:若是采用 RAID 6或RAID 60 等允许2 块盘故障的 RAID 技术,系统会开始重建,性能直到重建结束前都会有降级。若是采用传统 RAID 6 保护机制,一旦系统重建过程中继续坏盘,则数据丢失无法恢复。
Round 5: 3 块硬盘故障
上海川源全闪存储系统:如果在同一个节点则导致该节点离线,如果是一节点 2 个盘坏另一节点 1 盘坏,则存储性能降级但存储服务不会停止。
传统存储系统双活架构:即使采用传统 RAID 6 或RAID 60 等允许2块盘故障的RAID 保护机制,数据直接丢失无法恢复。
Round 6: 4 块硬盘故障
川源“真双活”架构:如果在同一节点同时故障 4 块硬盘则导致该节点离线,如果是一个节点故障 3 块盘另一节点故障 1 块盘,则存储性能降级但存储服务不会停止,如果是两个节点分别故障 2 块盘,可能导致存储性能降级服务不停止,小概率导致数据丢失。
传统存储系统双活架构:数据丢失无法恢复。
Round 7: 1 个控制器故障 + 1 块硬盘故障
上海川源全闪存储系统:I/O 会发生短时间的抖动,无需人工干预很快恢复。
传统存储系统双活架构:系统会进行故障切换,可能经历数十秒掉 0,同时性能降级。
Round 8: 1 个控制器故障 + 2 块硬盘故障
上海川源全闪存储系统:如果是控制器故障和SSD故障同时发生在一个节点,另外一个节点可以正常工作。如果是一个节点故障,另外一个节点同时坏 2 块盘,则存在数据丢失风险。这种情况下,可以把故障节点的所有SSD换到另一个节点,通过特定的恢复程序,即可实现数据和系统快速恢复。
传统存储系统双活架构:若是采用传统 RAID 6 保护机制, I/O 可能经历数十秒掉 0,I/O 恢复后性能直到重建结束前都会有降级。此外,一旦重建过程中继续坏盘,则数据丢失无法恢复。
Round 9: 1 个控制器故障 + 3 块硬盘故障
上海川源全闪存储系统:如果是同时发生在一个节点,另外一个节点正常工作,如果是一个节点故障另外一个节点同时坏 3 块盘,则存在数据丢失风险。这种情况下,可以把故障节点的所有SSD换到另一个节点,通过特定的恢复程序,即可实现数据和系统快速恢复。
传统存储系统双活架构:即使采用传统 RAID 6 或RAID 60 等允许2块盘故障的RAID 保护机制,数据直接丢失无法恢复。
Round 10: 1 个控制器故障 + 4 块硬盘故障
上海川源全闪存储系统:如果是同时发生在一个节点,另外一个节点正常工作,如果是一个节点故障另外一个节点同时坏 4 块盘,则存在数据丢失风险。这种情况下,可以把故障节点的所有SSD换到另一个节点,通过特定的恢复程序,即可实现数据和系统快速恢复。
传统存储系统双活架构:数据丢失无法恢复。