灾难恢复、地理冗余与服务质量责任解析
在当今数字化时代,保障业务的连续性和服务质量是企业运营的关键。灾难恢复和地理冗余策略对于应对各种突发情况至关重要,同时,明确服务质量的责任归属也能确保在出现问题时能够快速有效地解决。
灾难恢复目标
灾难恢复涉及两个重要的目标:恢复时间目标(RTO)和恢复点目标(RPO)。
- 恢复时间目标(RTO) :从业务领导者正式宣布灾难发生、启动灾难恢复计划,到指定比例(如90%)的用户恢复服务的目标时间。当使用自动灾难恢复机制时,RTO可以定义为从灾难事件影响用户服务到指定比例的用户恢复服务的时间。传统上,RTO目标以小时和天来衡量,但许多关键系统的RTO目标已缩短至分钟级别。
- 恢复点目标(RPO) :从(异地)数据(如备份、镜像和副本)恢复服务时可能丢失的数据更改量。例如,如果数据库更改每15分钟复制到一个地理上遥远的数据中心,那么RPO大约为15分钟,因为在最后一次备份和灾难事件之间可能丢失的数据库更改略多于15分钟。不同的应用程序有不同的RPO目标,如社交网络更新丢失24小时可能可以接受,但销售、库存更改或金融交易丢失24小时可能会危及企业在灾难事件后的生存能力。
定期测试和实践灾难恢复程序非常重要,特别是对于关键应用程序,以确保程序被正确理解和执行,并能实现恢复目标。
地理冗余架构
传统的高可用性架构通过管理逻辑系统内的冗余资源来减轻普通(单点)故障的影响,但像影响或使数据中心瘫痪的灾难事件,可能会超出单个应用程序实例减轻用户服务影响的能力。地理冗余架构通过在地理上遥远的站点部署完全独立的系统实例,在
超级会员免费看
订阅专栏 解锁全文
731

被折叠的 条评论
为什么被折叠?



