混沌工程:从Netflix实践到行业发展
1. Netflix的混沌实验探索
Netflix在系统运营中面临着复杂的挑战,最初成功部署了Chaos Monkey来解决实例消失的小范围问题。之后开始思考能否构建类似的机制来应对区域消失的大规模问题。
用户设备与Netflix流媒体服务的交互通过控制平面进行,该功能部署在AWS上。视频开始流播放后,视频数据由Netflix的私有网络提供,这是全球最大的内容分发网络(CDN)。
圣诞夜的服务中断让Netflix内部重新关注为控制平面流量构建主动 - 主动解决方案。理论上,西半球客户的流量将在两个AWS区域(东西海岸各一个)之间分配。若任一区域出现故障,将扩大另一区域的基础设施并转移所有请求。
为确保各团队的服务能够胜任此任务,Netflix创建了模拟区域离线的活动“Chaos Kong”。由于AWS不允许Netflix使一个区域离线,所以只能进行模拟。最初几次启动Chaos Kong时,情况紧张,需要组建“作战室”来监控流媒体服务的各个方面,且活动持续数小时。数月来,在将所有流量移出一个区域之前,Chaos Kong活动多次中止,因为发现问题后需交回服务所有者进行修复。最终,该活动得以稳定并正式成为流量工程团队的职责。
在许多情况下,由于Netflix自身或AWS的问题,单个区域确实出现了严重的停机时间。此时,Chaos Kong中使用的区域故障转移机制发挥了作用,投资的好处显而易见。不过,区域故障转移过程存在缺点,在最佳情况下也需要约50分钟才能完成,因为涉及复杂的手动解释和干预。通过增加Chaos Kong的频率,流量工程团队最终将故障转移过程缩短至仅6分钟。
到2015年
超级会员免费看
订阅专栏 解锁全文
1087

被折叠的 条评论
为什么被折叠?



