
故障治理
文章平均质量分 85
分享故障案例,介绍故障治理相关经验
不思jo
菜鸟中的菜菜鸟
展开
-
从管控角度谈慢SQL治理
慢SQL是指那些执行效率低下、响应时间长,导致用户等待时间变长和服务器资源利用率下降的SQL查询。那么,如何定义一个SQL查询是"慢"的呢?这不是一个绝对时间的问题,而是需要从多维度考量。原创 2024-09-09 17:23:39 · 1871 阅读 · 0 评论 -
故障治理:如何进行故障复盘
复盘owner根据复盘会议及故障定责结果、最终的故障原因、改进方案等结论,在原故障报告的基础上,修改完善并形成最终定稿,以邮件的形式发给所有故障干系人及相关领导进行上报和周知,方便干系人及领导查阅整个复盘报告,同时让改进计划中涉及的各方明确知晓后续相关工作。故障时间线回放是指从故障的最源头开始,从旁观者的角度重新梳理一遍故障的详细过程,包括每个时间点的人员操作、指标变化、监控告警、系统异常、业务实际情况等等。每次故障复盘都必须有唯一的复盘owner,故障复盘owner负责主动引导大家,推动复盘进度。原创 2023-09-12 11:29:02 · 411 阅读 · 0 评论 -
证书过期为何频频出现,该如何避免?
证书过期为何频频出现,该如何避免?原创 2023-03-10 15:06:29 · 212 阅读 · 0 评论 -
故障案例分享 | 证书过期引发的血案...
即我们在使用外部技术组件的时候,要仔细评估对方的可用性情况,以及我们的兜底方案等等。定责是对内的,默认第三方无责是为了避免内部定责时把问题甩锅给第三方,久而久之 SRE 会失去应有的责任心。当然,故障是第三方引起的,我们理应去追责、索赔,这没有问题,但在架构设计上、整个稳定性保障上有没有哪些工作是可以完善来规避故障的,这是我们需要思考的内容。前有特斯拉证书过期导致车辆无法正常解锁,后有LinkedIn的HTTPS证书两年内接连两次过期导致站点停机,BATJ这类大厂,都不乏证书过期导致的故障。原创 2023-02-23 08:36:50 · 447 阅读 · 0 评论