本篇文章整理自腾讯互娱高级工程师吴召军在 PingCAP Infra Meetup 上的演讲实录,欢迎点击【阅读原文】查看视频回放,后台回复 “135” 即可获取本期 PPT 链接。
本文首先介绍了腾讯互娱面临的复杂的技术场景,然后介绍了腾讯互娱混沌工程团队基于 Chaos Mesh 打造的云原生混沌工程平台,最后分享腾讯互娱近半年混沌工程实践取得的收益。
腾讯互娱运营活动每天的访问人次超过 100 亿次,高峰的 QPS 超过 100 万,每天活动代码发布更新超过 500 次,数据量也超过 200 TB。面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。
以前活动的发布都是运维人员来操作,随着活动量快速增长,出现了明显的瓶颈。为了解决这个问题,腾讯互娱设计了一条从代码到生产环境的流水线。现在,活动开发只要把代码提交到仓库,触发代码提交,运营平台就会自动编译构建生成镜像,并且自动把镜像部署到腾讯云 TKE。从代码完成到生产环境发布完成只需 5 分钟,并且全程都是开发自助完成。
如今,腾讯互娱运营活动基本上所有的服务都是跑在腾讯云 TKE。受益于云原生的技术红利,服务的弹性伸缩,包括服务扩容、缩容的速度非常快,几分钟时间就可以从单副本扩展到一百个副本。
为了更加敏捷的迭代,开发团队会把一个大型的、难以维护的服务拆分为很多的小服务进行独立运营。小服务代码量少,逻辑较为简单,所以交接、学习的成本比较低。这种微服务的组织方式逐渐成为大势所趋,但是随着小服务越来越多,服务间的调用关系也越来越复杂。所以这带来一个新的问题:一个小服务的异常可能拖垮整条链路,带来连锁反应。
不同开发对容错能力的处理也不一样,有些服务的容错能力特别好,降级能力也比较完善,但是有些服务就不一定了。还有的告警不及时,故障定位的工具不完善,导致一些故障处理起来比较麻烦。
那如何解决这个问题呢?腾讯游戏混沌工程团队给出的答案是:把 PingCAP 开源的 Chaos Mesh 在腾讯云 TKE 落地,用以解决当前服务故障频

腾讯互娱采用ChaosMesh构建云原生混沌工程平台,实现了高效稳定的故障演练。通过集成到现有运营平台,简化了混沌实验流程,提高了故障演练效率10倍以上。
最低0.47元/天 解锁文章
868





