13、从失败中学习:生产故障恢复与预防策略

从失败中学习:生产故障恢复与预防策略

在软件开发和系统运营的领域中,失败是难以避免的。然而,通过从失败中学习,我们可以采取有效的措施来预防未来的问题,并提高系统的可靠性和稳定性。本文将通过两个实际案例,探讨如何从失败中学习,并介绍一些用于预防生产故障的关键策略。

案例分析
修复 healthcare.gov

healthcare.gov 最初的上线遭遇了灾难性的失败。为了解决这个问题,来自硅谷的软件开发人员发起了 “Tech Surge” 行动,对网站的主要部分进行重构。其中,由 Loren Yu 和 Kalvin Wange 领导的一个小团队 “Marketplace Lite (MPL)” 发挥了重要作用。

MPL 团队以创业心态运作,采用敏捷实践和 DevOps 工具,与医疗保险和医疗补助服务中心 (CMS) 的现有团队合作,重写了网站的登录和注册部分。他们展示了新的协作方式,如通过聊天而不是电子邮件进行沟通。随着其他开发者的合同到期,MPL 继续与 CMS 合作,逐步改进系统测试并提供修复方案。他们重写的 App 2.0 工具,最初仅在呼叫中心进行软启动,但取得了巨大成功,成为简单医疗史用户注册新医疗保险的主要工具。

MPL 和 Tech Surge 的工作,以及 healthcare.gov 在后续注册期间的成功推出,为敏捷和 DevOps 思维与实践提供了实践基础。18F 和美国数字服务局等机构开始指导其他联邦机构将敏捷和 DevOps 应用于技术项目。

Atlassian 云服务中断 (2022)

2022 年 4 月 5 日,Atlassian 的 20 多万个客户组织中的 7

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值