21、事件响应最佳实践与案例分析

事件响应最佳实践与案例分析

1. 事件响应原则与流程

在事件响应中,减轻影响应始终是首要任务。即便尚未完全明确问题根源,只要知道大致位置,就可采取减轻措施。例如,若响应人员在发现问题大致位置后,将所有镜像回滚到已知的正常状态,事件或许能更早得到缓解。

处理活跃事件的步骤如下:
1. 评估事件影响。
2. 减轻事件影响。
3. 进行事件根本原因分析。
4. 事件结束后,修复问题根源并撰写事后分析报告。

之后,可开展事件响应演练,工程师也可针对系统漏洞开展相关项目。

2. 案例分析

2.1 谷歌数据中心停电事件

2.1.1 背景

电网事件(如雷击)可能导致数据中心的电力供应大幅波动。谷歌通过备用发电机和电池来应对突发停电,这些设备经过充分测试,在类似场景下表现可靠。许多谷歌服务器连接着大量磁盘,磁盘位于服务器上方或下方的独立托盘上,这些托盘配备有不间断电源(UPS)电池。停电时,备用发电机启动,但需要几分钟时间,在此期间,服务器和磁盘托盘的备用电池会提供电力,确保数据中心正常运行。

2.1.2 事件经过

2015 年年中,比利时的一个谷歌数据中心附近的电网在两分钟内遭受了四次雷击。数据中心的备用发电机启动,为所有机器供电。在备用发电机启动过程中,大多数服务器依靠备用电池运行了几分钟。然而,由于雷击间隔过近,磁盘托盘的 UPS 电池在第三次和第四次雷击时未能切换到备用电源,导致磁盘托盘断电,直到备用发电机开始工作。服务器虽未断电,但无法访问已断电的磁盘,这使得谷歌计算引擎(GCE)上运行的许多虚拟机(VM)实例出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值