《赵成的运维体系管理课》学习笔记(5)——故障管理

本文是《赵成的运维体系管理课》的学习笔记,重点讨论了故障管理,包括对故障的理解,故障定级和定责,鼓励做事而非处罚错误,以及故障应急和复盘的实践。强调通过设计容错系统和建立有效的故障管理体系,以减少故障影响并促进团队学习与成长。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

37 | 故障管理:谈谈我对故障的理解

系统正常,只是改系统无数异常情况下的一种特例。

Design for Failure

我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因

理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。

强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。

38 | 故障管理:故障定级和定责

故障的定级标准

P0-P4, MTBF,MTTR,MTTF

故障的定责标准

变更执行,服务依赖,第三方责任

39 | 故障管理:鼓励做事,而不是处罚错误

关于定责和处罚

绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。

鼓励做事,而不是处罚错误

40 | 故障管理:故障应急和故障复盘</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值