事件响应最佳实践与案例分析
1. 事件响应原则与流程
在事件响应中,减轻影响应始终是首要任务。即便尚未完全明确问题根源,只要知道大致位置,就可采取减轻措施。例如,若响应人员在发现问题大致位置后,将所有镜像回滚到已知的正常状态,事件或许能更早得到缓解。
处理活跃事件的步骤如下:
1. 评估事件影响。
2. 减轻事件影响。
3. 进行事件根本原因分析。
4. 事件结束后,修复问题根源并撰写事后分析报告。
之后,可开展事件响应演练,工程师也可针对系统漏洞开展相关项目。
2. 案例分析
2.1 谷歌数据中心停电事件
2.1.1 背景
电网事件(如雷击)可能导致数据中心的电力供应大幅波动。谷歌通过备用发电机和电池来应对突发停电,这些设备经过充分测试,在类似场景下表现可靠。许多谷歌服务器连接着大量磁盘,磁盘位于服务器上方或下方的独立托盘上,这些托盘配备有不间断电源(UPS)电池。停电时,备用发电机启动,但需要几分钟时间,在此期间,服务器和磁盘托盘的备用电池会提供电力,确保数据中心正常运行。
2.1.2 事件经过
2015 年年中,比利时的一个谷歌数据中心附近的电网在两分钟内遭受了四次雷击。数据中心的备用发电机启动,为所有机器供电。在备用发电机启动过程中,大多数服务器依靠备用电池运行了几分钟。然而,由于雷击间隔过近,磁盘托盘的 UPS 电池在第三次和第四次雷击时未能切换到备用电源,导致磁盘托盘断电,直到备用发电机开始工作。服务器虽未断电,但无法访问已断电的磁盘,这使得谷歌计算引擎(GCE)上运行的许多虚拟机(VM)实例出
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



