事件准备与应对:保障业务稳定运行
在当今数字化的时代,业务的技术中断事件随时可能发生,对企业造成不同程度的影响。本文将深入探讨如何为各类事件和服务中断做好准备,包括减少人为错误、提升值班响应能力、管理事件发生时的情况以及衡量应对的成效。
1. 事件与服务中断的定义
事件本质上是业务的任何技术中断,其形式、规模和严重程度各不相同。例如:
- 银行业务中,金融机构成员可能无法在线访问银行账户。
- 在线照片存储业务里,用户可能无法上传新照片。
- 零售业务中,由于支付处理器故障,用户可能无法进行购买。
事件的严重程度也有所差异,有些可能只是小问题,如“添加到购物车”按钮重复请求,用户仍可编辑购物车数量;而有些则可能是严重的,如注册表单阻止用户加入网站、支付处理器服务中断或数据库错误导致关键用户信息丢失。
2. 以自动化对抗“人为错误”
人为错误常被视为失败的“根本原因”,但实际上,工程师的判断和决策可能导致业务中断,而工程组织的系统和流程也可能促使或未能阻止这些判断和决策。事件在软件开发和维护中不可避免,关键问题是相同或相似的事件频繁重演。
“人为错误”是人们对常见人类失误的标签,但解雇所有员工并非解决之道。人类虽有缺陷,但仍是解决技术挑战的最有力工具。学术领域应对工程失误的全面方法是人类因素研究,也称为人机工程学,它结合多学科知识,旨在减少人为错误。在DevOps中,需关注认知人机工程学和组织人机工程学:
- 认知人机工程学 :研究人类如何感知和推理环境,包括人们如何做决策、对刺激的反应以及为何有人可靠而有人不可靠。
-
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



