- 紧急事故的流程管理要素
(a)嵌套式职责分离:在事故处理中,让每个人清楚自己的职责是非常重要的
(b)控制中心:受到事故影响的部门或者人需要知道他们可以与事故总控负责人联系。在很多情况下,可以设立一个“作战室”(warroom),将处理问题的全部成员挪到该地办公。
(c)实时事故状态文档
(d)明确公开的职责交接
以下是系统中可以分配给某个人的角色:
- 事故总控(incident command):事故总控负责人掌握这次事故的概要信息。他们负责组建事故处理团队,按需求和优先级将一些任务分配给团队成员。未分配的职责仍由事故总控人负责。如果有必要的话,他们要负责协调工作,让事务处理团队可以更有效地解决问题,比如代申请访问权限、收集联系信息等。
- 事务处理团队(operational work):事务处理团队负责人在与事故总控负责人充分沟通的情况下,负责指挥团队具体执行合适的事务来解决问题。事务处理团队是在一次事故中唯一能够对系统做修改的团队。
- 发言人(communication):该人是本次事故处理团队的公众发言人。他的职责包括向事故处理团队和所有关心的人发送周期性通知(通常以电子邮件形式),同时可能要负责维护目前的事故文档,保证其正确性和信息的及时性。
- 规划负责人(planning):规划负责人负责为事务处理团队提供支持,负责处理一些持续性工作,例如填写Bug报告记录系统,给事务处理团队订晚餐,安排职责交接记录。同时负责记录在处理过程中对系统进行的特殊操作,以便未来事故结束后能够复原。
- 事故流程管理最佳实践
(a)划分优先级:控制影响范围,恢复服务,同时为根源调查保存现场。
(b)事前准备:事先和所有事故处理参与者一起准备一套流程。
(c)信任:充分相信每个事故处理参与者,分配职责后让他们自主行动。
(d)反思<

本文介绍了Google运维中的紧急事故管理流程,包括嵌套式职责分离、控制中心设立、实时事故状态文档和明确的职责交接。事故总控、事务处理团队、发言人和规划负责人各司其职,确保高效解决事故。最佳实践包括划分优先级、事前准备、建立信任、反思、考虑替代方案、练习和换位思考。
最低0.47元/天 解锁文章
3399

被折叠的 条评论
为什么被折叠?



