云环境的可靠性、性能与安全剖析
1. 云环境中的故障特点
在云环境中,许多在传统数据中心被认为罕见的故障却十分常见。例如,与具备组件冗余的低端服务器相比,EC2 实例的可靠性极低。在传统数据中心,物理服务器很少会毫无预警地丢失,通常是某个组件先出现故障(甚至会提前发出警告),然后由冗余组件替换,从而实现无停机恢复。而在亚马逊云等环境中,实例最终会毫无预警地失败,这是必然会发生的。
虚拟实例的故障就如同服务器中突然爆炸了一颗手榴弹,但没有附带损害,即服务器完全丢失,无法恢复任何数据。不过,在云环境中,即使丢失整个可用区,也可能不会造成太大影响,这与传统数据中心丢失整个数据中心的后果截然不同。
2. 亚马逊网络服务的服务级别
竞争对手与亚马逊竞争的一个领域是服务级别。大多数竞争对手在云服务中提供了强大的服务级别。亚马逊为 S3 提供服务级别协议(SLA)已有一段时间,最近才为 EC2 添加了正式的 SLA。S3 承诺在每个日历月中 99.5% 的时间响应服务请求,而 EC2 定义了更复杂的可用性服务级别,承诺一个区域内至少两个可用区 99.95% 的可用性。
但这些服务级别不能直接转化为你向客户承诺的内容,具体如下:
- 启动 EC2 实例需要 S3 可用。如果 S3 的可用性为 99.5%,那么无论 EC2 表现多好,你只能在 99.5% 的时间内启动新的 EC2 实例。这一限制也适用于快照和创建卷,因为 S3 不可用时无法进行这些操作。
- 只要同一区域内两个可用区 99.95% 的时间可用,EC2 就算达到了服务级别,即使整个可用区不断出现故障。
- 你需要设计应用程序以可靠地支持其需求。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



