
故障处理
程序猿学长
专注于产品研发团队管理 软件架构 微服务 中台 欢迎一起交流学习 MBA CTO PMP;关注微信公众号 程序猿学长,大量免费学习资源分享。程序猿学长
展开
-
研发管理-质量与效率提升-混沌工程在携程的实践
研发管理-质量与效率提升-混沌工程在携程的实践前几天听了携程SRE运维总监方菊女士的演讲,特别有感触,也是因为负责的产品和项目团队在上线过程中出现了很多的故障。本人前几篇文章介绍了携程在故障处理方面的经验介绍,又在网上查找到相关资料 混沌工程在携程的实践的pdf版,分享给大家。这还是2019年携程技术峰会上的分享,今年的分享跟此内容大体差不多,但是更升华和具体,ppt内容也更丰富。感谢携程运维总监的分享。对于研发团队,特别是中小型研发团队,可能没有专门的运维质量部门,需要原创 2020-12-27 21:18:06 · 8777 阅读 · 2 评论 -
研发管理-在团队中开展故障检验平台建设
在团队中开展故障检验平台建设学习携程SRE稳定性风险治理框架思路,并在团队开展了故障检验平台的建设,其建设的总体原则和路径有:1.验证历史故障的修复2.主动设计故障场景并发起挑战3.形成design for failure的文化**1.测试覆盖常见故障场景2.生产、测试环境少量演练3.生产关键应用的定期演练4.生产设定场景的随机演练5.生产全自动化演练和验证把上面的实践思路,同我们自身的研发管理和产品测试相结合,能得到很多的启发。通过故障检验思路,原则,方法,实践,将系统故障扼原创 2020-12-27 18:02:13 · 5618 阅读 · 0 评论 -
研发管理-故障处理-故障多样化演练场景
学习携程稳定性风险治理框架中,混沌工程构建原则,其中故障多样化演练场景,主要需思考设计的点有以下内容,其中的每一个点,都值得都需要再深入学习研究,此处分享整体概念和思路。Route: 路由层集群拉出流量突增限流证书错误Application:应用层依赖超时依赖异常OOM线程池满DATA:数据层Redis宕机Miss CacheRedis切换Redis延迟DB宕机DB连接满DB切换DB阻塞DB IO高OS:操作系统层服务器宕机High CPUHigh IOH原创 2020-12-27 17:50:24 · 5797 阅读 · 1 评论