Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践

原创

于 2021-05-19 11:27:22 发布 · 748 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#运维 #大数据

腾讯互娱采用ChaosMesh构建云原生混沌工程平台，实现了高效稳定的故障演练。通过集成到现有运营平台，简化了混沌实验流程，提高了故障演练效率10倍以上。

本篇文章整理自腾讯互娱高级工程师吴召军在 PingCAP Infra Meetup 上的演讲实录，欢迎点击【阅读原文】查看视频回放，后台回复 “135” 即可获取本期 PPT 链接。

本文首先介绍了腾讯互娱面临的复杂的技术场景，然后介绍了腾讯互娱混沌工程团队基于 Chaos Mesh 打造的云原生混沌工程平台，最后分享腾讯互娱近半年混沌工程实践取得的收益。

腾讯互娱运营活动每天的访问人次超过 100 亿次，高峰的 QPS 超过 100 万，每天活动代码发布更新超过 500 次，数据量也超过 200 TB。面对海量的用户请求和快捷的版本发布迭代速度，如何才能又快又稳地保障服务的运营？腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。

以前活动的发布都是运维人员来操作，随着活动量快速增长，出现了明显的瓶颈。为了解决这个问题，腾讯互娱设计了一条从代码到生产环境的流水线。现在，活动开发只要把代码提交到仓库，触发代码提交，运营平台就会自动编译构建生成镜像，并且自动把镜像部署到腾讯云 TKE。从代码完成到生产环境发布完成只需 5 分钟，并且全程都是开发自助完成。

如今，腾讯互娱运营活动基本上所有的服务都是跑在腾讯云 TKE。受益于云原生的技术红利，服务的弹性伸缩，包括服务扩容、缩容的速度非常快，几分钟时间就可以从单副本扩展到一百个副本。

为了更加敏捷的迭代，开发团队会把一个大型的、难以维护的服务拆分为很多的小服务进行独立运营。小服务代码量少，逻辑较为简单，所以交接、学习的成本比较低。这种微服务的组织方式逐渐成为大势所趋，但是随着小服务越来越多，服务间的调用关系也越来越复杂。所以这带来一个新的问题：一个小服务的异常可能拖垮整条链路，带来连锁反应。

不同开发对容错能力的处理也不一样，有些服务的容错能力特别好，降级能力也比较完善，但是有些服务就不一定了。还有的告警不及时，故障定位的工具不完善，导致一些故障处理起来比较麻烦。

那如何解决这个问题呢？腾讯游戏混沌工程团队给出的答案是：把 PingCAP 开源的 Chaos Mesh 在腾讯云 TKE 落地，用以解决当前服务故障频

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。