云基础设施的灾难恢复与扩展策略
1. 跨可用区部署
在亚马逊基础设施中,除块存储设备外,几乎所有资源都可在给定区域的所有可用区使用。尽管跨可用区的网络流量会收费,但为了实现跨可用区的冗余能力,这笔费用通常是值得的。
如图展示的应用环境,能轻松承受整个可用区的丢失。若丢失整个可用区 B,应用仍可正常运行,只是性能可能会下降;若丢失可用区 A,则需在可用区 B 启动新的负载均衡器,并将该可用区的从服务器提升为主服务器,系统可在几分钟内恢复运行,且数据损失极小或无损失。若数据库服务器是集群化的,且有备用负载均衡器在后台静默运行,可将旧负载均衡器的 IP 地址重新分配给备用负载均衡器,这样只会有几秒钟的停机时间,且无数据损失。
亚马逊服务水平协议(SLA)规定每个区域至少有两个可用区的正常运行时间达到 99.95%。若跨多个可用区部署,在有两个以上可用区的区域,实际运行时间可超过亚马逊 SLA。例如,美国东海岸有三个可用区,两个可用区同时发生故障且恰好是你使用的两个区的概率仅为 33%。即便不幸遇到这种情况,只要所在区域有两个以上可用区,仍可通过执行灾难恢复程序,在剩余可用区恢复基础设施,从而在另外两个可用区仍处于故障状态时恢复运营。
2. 跨区域运营
撰写本文时,亚马逊支持两个区域:us - east - 1(美国东部)和 eu - west - 1(西欧)。这两个区域几乎没有共享有意义的基础设施。这种架构的优势在于,若跨区域运营,应用基本能在美国或欧盟遭受核攻击(但不是两者同时)时存活下来。然而,缺乏共同基础设施使得跨区域复制环境变得更加困难。
每个区域都有与之关联的亚马逊 S3 区域,因此不能使用美国的 AMI 在欧盟
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



