避免失败的原则与关键环境管理
在技术系统的运行过程中,避免失败和保障关键环境的稳定运行是至关重要的。以下将详细探讨相关的策略和方法。
灾难恢复的不同方法
当机器出现故障需要更换和重新安装时,裸机恢复是一种相对简单的逐步操作方法,包括引导、从磁带恢复配置、应用配置、从磁带恢复数据、测试和上线。然而,还有许多其他类型的故障,虽然具有灾难性,但并不需要进行裸机恢复。
例如,重启时接口配置错误(IP 地址错误)、软件配置文件缺失、Web 服务器重启后部分虚拟主机“丢失”或出现故障,以及某些关键的定期任务未运行等情况。在开发环境中,这类神秘问题经常出现,而且生产推进计划越激进,生产环境中出现异常的可能性就越大。
对于这些由未跟踪、文档不完善的“应急响应”式配置更改所带来的挑战,解决方法是使用版本控制系统(VCS)进行跟踪和记录。具体操作步骤如下:
1. 在版本控制服务器上,设置一个备份流程,备份所有生产服务器上的重要文件,包括配置文件、自定义内核以及在操作系统完整安装后安装的软件包应用程序(如 Apache、Oracle、Postgres、MySQL 等)。这些数据量通常在 10 兆字节到 500 兆字节之间,对于版本控制系统来说是完全合理的。
2. 从这些备份中提交更改。可以使用 rsync 等协议同步这些数据源,实现低成本的复制,以实现短的同步/提交周期。
3. 另一种更彻底的方法是将重要文件直接放在受版本控制的系统中,让每个系统负责直接将更改应用到 VCS。这种方法虽然减少了一个步骤,但在配置时需要更多的技巧,以确保所有适当的文件都被备份。
这种方法的优点是,由于只关注核心配置信息和静态应用程序,文件集不太可能频繁
超级会员免费看
订阅专栏 解锁全文
170万+

被折叠的 条评论
为什么被折叠?



