谷歌灾难恢复测试(DiRT):保障系统可靠性的关键实践
1. 灾难恢复测试的重要性与风险规避
凌晨4点,当关键人员处于睡眠状态或正在休假时进行测试存在风险,应尽量避免。谷歌的灾难恢复测试(Disaster Recovery Testing,DiRT)是该公司类似于“游戏日”的演练形式。这种测试规模宏大,主要聚焦于团队间的交互测试。此类交互在日常中较少进行演练,但在重大灾难发生时却至关重要。与基于团队的服务测试或随机测试相比,DiRT演练更有可能导致客户可见的服务中断和收入损失。因此,各团队在参与DiRT之前,应先做好自身的专项消防演练。
2. 从小规模开始引入DiRT
- 易于管理审批 :尽管DiRT演练规模可能很大,但最好从小规模项目入手,向公司引入这一概念。小项目更容易向管理层说明其合理性,一个实际运行的小示例比一个假设的大项目更容易获得批准。对于不熟悉该概念的人来说,大项目听起来可能相当可怕。如果负责保障系统正常运行的人员告知管理层他们想要让系统停机进行测试,管理层肯定会感到担忧。
- 简单安全的早期测试 :小规模开始意味着测试更简单。谷歌的DiRT最初仅涉及少数几个团队,测试过程安全可控,不会造成用户可见的服务中断,即使这样做可能使测试的实用性有所降低。这样做的目的是让团队熟悉这一概念,让他们相信所学到的经验教训将用于系统的建设性改进,并且失败不会演变成相互指责或追究责任的局面。同时,也让DiRT测试协调员能够简化流程,尝试他们的方法和跟踪系统。
- 早期测试案例
超级会员免费看
订阅专栏 解锁全文
82

被折叠的 条评论
为什么被折叠?



