混沌工程实验的选择与自动化探索
实验时机的影响因素
在实际操作中,开展特定实验的时机受到多种条件的影响,这不仅涉及实验的开始时间,还包括结束时间。例如,有工程师提到,某些实验常常会被推迟,原因是其他团队希望将实验与他们的部署周期进行协调。
以下是影响实验时机的一些常见条件:
1. 对事件中意外或令人惊讶的动态或行为做出响应。
2. 推出具有潜在意外行为的新功能、产品或子系统。
3. 与系统的其他部分进行集成(即引入新的基础设施)。
4. 为高需求的营销活动(如黑色星期五或网络星期一)做准备。
5. 适应外部力量(股票价格波动、有新闻价值的事件等)。
6. 确认关于未知或罕见系统行为的理论(例如,确保后备实现不会破坏关键业务基础设施)。
在软件事件发生期间,不确定性和模糊性是其典型特征。工程师常用的一种启发式方法是通过暂停进程、停止服务等方式,减少潜在影响因素的数量,以更好地理解系统实际发生的情况。
混沌工程中的自动化思考
关于混沌工程中哪些部分可以实现“自动化”存在诸多疑问。我们可以从“混沌工程原则”中描述的活动来审视这个问题:
1. 首先,将“稳定状态”定义为系统的某种可测量输出,以指示正常行为。
2. 假设在对照组和实验组中,这种稳定状态将持续存在。
3. 引入反映现实世界事件的变量,如服务器崩溃、硬盘故障、网络连接中断等。
4. 通过寻找对照组和实验组之间稳定状态的差异,尝试推翻假设。
那么,这些活动中哪些可以自动化,哪些不能,以及自动化应如何提供帮助呢?为了批判性地探讨这些问题,我们需要了解一下功能分配的概念。
超级会员免费看
订阅专栏 解锁全文
1375

被折叠的 条评论
为什么被折叠?



