2、混沌工程:从Netflix实践到行业发展

混沌工程:从Netflix实践到行业发展

1. Netflix的混沌实验探索

Netflix在系统运营中面临着复杂的挑战,最初成功部署了Chaos Monkey来解决实例消失的小范围问题。之后开始思考能否构建类似的机制来应对区域消失的大规模问题。

用户设备与Netflix流媒体服务的交互通过控制平面进行,该功能部署在AWS上。视频开始流播放后,视频数据由Netflix的私有网络提供,这是全球最大的内容分发网络(CDN)。

圣诞夜的服务中断让Netflix内部重新关注为控制平面流量构建主动 - 主动解决方案。理论上,西半球客户的流量将在两个AWS区域(东西海岸各一个)之间分配。若任一区域出现故障,将扩大另一区域的基础设施并转移所有请求。

为确保各团队的服务能够胜任此任务,Netflix创建了模拟区域离线的活动“Chaos Kong”。由于AWS不允许Netflix使一个区域离线,所以只能进行模拟。最初几次启动Chaos Kong时,情况紧张,需要组建“作战室”来监控流媒体服务的各个方面,且活动持续数小时。数月来,在将所有流量移出一个区域之前,Chaos Kong活动多次中止,因为发现问题后需交回服务所有者进行修复。最终,该活动得以稳定并正式成为流量工程团队的职责。

在许多情况下,由于Netflix自身或AWS的问题,单个区域确实出现了严重的停机时间。此时,Chaos Kong中使用的区域故障转移机制发挥了作用,投资的好处显而易见。不过,区域故障转移过程存在缺点,在最佳情况下也需要约50分钟才能完成,因为涉及复杂的手动解释和干预。通过增加Chaos Kong的频率,流量工程团队最终将故障转移过程缩短至仅6分钟。

到2015年

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值