抗脆弱 IT 系统与服务器管理工具的最佳实践
1. 抗脆弱 IT 系统的核心要素
在 IT 系统中,人是应对意外情况并使系统其他元素适应未来类似情况的关键因素。这意味着运行系统的人员需要深入了解系统,并能够持续对其进行修改。虽然自动化是一种无需人工干预就能运行事物的理念,但目前还无法实现像购买标准企业 IT 基础设施并将其作为黑盒运行的理想状态。因为 IT 技术和方法在不断发展,即使是非技术企业,最成功的公司也是那些不断改变和改进其 IT 的公司。所以,设计一个能随需求变化而适应的系统的秘诀在于围绕人来设计。
1.1 案例说明
Brian L. Troutwin 在 2014 年 DevOpsDays Ghent 会议上提到,NASA 的阿波罗 13 号航天飞行中,人类能够修改系统以应对灾难;而切尔诺贝利核电站的人类却被阻止干预自动化系统,从而无法采取措施阻止或控制灾难。
1.2 高效基础设施团队的表现
一个基础设施团队的有效性标志在于其处理不断变化的需求的能力。高效的团队能够轻松应对变化和新需求,将需求分解为小部分,并以低风险、低影响的快速流进行处理。以下是团队表现良好的一些信号:
- 基础设施的每个元素都能快速、轻松地重建。
- 所有系统都保持更新、一致且最新。
- 标准服务请求(包括配置标准服务器和环境)可在几分钟内完成,无需基础设施团队成员参与,无需服务级别协议(SLA)。
- 很少需要维护窗口,包括软件部署和其他高风险活动在内的更改可在工作时间进行。
- 团队跟踪平均恢复时间(MTTR)并专注于改进方法,虽然也可能跟踪平均故障间隔时间(MTBF),但不依赖于避免故障。
超级会员免费看
订阅专栏 解锁全文
835

被折叠的 条评论
为什么被折叠?



