混沌工程实验设计与实践指南
实验设计注意事项
设计周全的混沌实验往往比开发一个功能特性耗费更多的时间和资源。在系统准备好进行生产环境的混沌实验之前,在模拟生产的低级环境中运行实验也会产生额外的成本。例如,搭建具有所需容量的类生产环境,确保依赖服务可用等任务都需要花费时间和精力。在采用这一实践的早期阶段,在规划中考虑这些因素至关重要。虽然创建基本故障模板并基于该模板设计实验需要大量的前期投入,但这对后续的实验运行有极大帮助。比如,若关闭主机以测试自动伸缩设置是最常见且频繁进行的故障场景,为团队提供可配置的模板就能节省时间和精力。
在实验设计的早期阶段,对以下方面有清晰的理解和文档记录,能帮助团队更有信心地运行实验:
- 预期行为的清晰文档
- 潜在或可能的故障
- 对正在进行中的事务的影响
- 基础设施和应用程序的监控
- 要验证的特定故障点的关键程度
- 每个实验的风险评分
实验运行后,从系统和业务角度记录观察到的行为至关重要。
在非生产环境中,通常在白天进行这些实验,以便在出现问题时整个团队都能及时响应。在金融服务公司,任何故障(无论是否人为引发)的后果都很严重。如果在生产环境中进行实验,选择对应用程序影响最小或无影响的时间点很重要,以防在实验过程中发现新的故障点。
对于涉及合成客户信息或业务交易的实验,维护清晰的事件审计跟踪非常重要,例如:谁安排了这个实验,是否被批准在特定环境中执行,实验对象系统是否因此失败,设置了哪些通知和升级程序来处理问题并避免影响客户等。这有助于全面了解情况。此外,日志记录和/或跟踪能更详细地反映应用程序的健康状况和状态。
团队开始进
超级会员免费看
订阅专栏 解锁全文
101

被折叠的 条评论
为什么被折叠?



