
故障复盘
焦振清
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从二十个严重的配置故障中我们能学到什么?
作者:焦振清 配置变更的痛点 时效性,很多配置变更的场景,其生效时间是有明确要求的,尤其是止损相关的操作。如流量调度的配置生效时间不超过 5min,这是由 SLA 所决定的。因为 5min 的生效要求,所以这类配置变更基本上不会进行灰度,直接就全量生效了。 动态化,在上下游关联关系的场景中,服务的 IP 地址列表和数量均会发生变化的,站在整个系统角度去看,可能每时每刻都会有服务因扩容、缩容、...转载 2019-12-24 11:18:50 · 530 阅读 · 0 评论 -
上云了,如何保障云数据库的高可用?
责任共担模型 朋友和我吐槽,自从他负责的系统上云后,在云数据库上经历了好几次故障,而事后的故障复盘,居然都是他们自己的责任和问题,这让他很被动。更尴尬的是,原想着上云后,数据库的问题都是公有云厂商负责,所以他们运维团队中也没有招聘 DBA,当下没有很好的优化思路,于是找我一起探讨这个问题。 朋友的这个 Case 很典型,认为上云就万事大吉,上云后一旦出现问题,又会觉得上云各种不靠谱。在公有云厂...转载 2019-12-03 10:41:05 · 589 阅读 · 0 评论