21、事件准备与应对:保障业务稳定运行

事件准备与应对:保障业务稳定运行

在当今数字化的时代,业务的技术中断事件随时可能发生,对企业造成不同程度的影响。本文将深入探讨如何为各类事件和服务中断做好准备,包括减少人为错误、提升值班响应能力、管理事件发生时的情况以及衡量应对的成效。

1. 事件与服务中断的定义

事件本质上是业务的任何技术中断,其形式、规模和严重程度各不相同。例如:
- 银行业务中,金融机构成员可能无法在线访问银行账户。
- 在线照片存储业务里,用户可能无法上传新照片。
- 零售业务中,由于支付处理器故障,用户可能无法进行购买。

事件的严重程度也有所差异,有些可能只是小问题,如“添加到购物车”按钮重复请求,用户仍可编辑购物车数量;而有些则可能是严重的,如注册表单阻止用户加入网站、支付处理器服务中断或数据库错误导致关键用户信息丢失。

2. 以自动化对抗“人为错误”

人为错误常被视为失败的“根本原因”,但实际上,工程师的判断和决策可能导致业务中断,而工程组织的系统和流程也可能促使或未能阻止这些判断和决策。事件在软件开发和维护中不可避免,关键问题是相同或相似的事件频繁重演。

“人为错误”是人们对常见人类失误的标签,但解雇所有员工并非解决之道。人类虽有缺陷,但仍是解决技术挑战的最有力工具。学术领域应对工程失误的全面方法是人类因素研究,也称为人机工程学,它结合多学科知识,旨在减少人为错误。在DevOps中,需关注认知人机工程学和组织人机工程学:
- 认知人机工程学 :研究人类如何感知和推理环境,包括人们如何做决策、对刺激的反应以及为何有人可靠而有人不可靠。
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值