云应用的故障、资源与容量管理
1. 故障点分析
在云环境中,存在多个可能导致故障的关键点:
- IaaS 操作中的资源迁移与重新配置 :在 IaaS 操作期间迁移或重新配置云资源,例如整合或平衡虚拟机负载,或者在虚拟化磁盘阵列中进行存储分配。
- 虚拟机快照激活或恢复 :激活或恢复虚拟机快照时可能出现问题。
- 虚拟资源重启、恢复或重新分配 :在故障发生后重启、恢复或重新分配虚拟资源(如虚拟机、存储)。
- 不协调的管理操作 :在云层和应用层执行不协调的管理操作。
2. 亲和性与反亲和性考虑
在配置原生系统时,应用架构师通常会在安装时明确决定每个应用组件实例应运行在哪个服务器或刀片上。系统架构师需要在相关组件靠近部署带来的性能优势与单点故障(SPOF)风险之间进行权衡。例如,高可用性系统依赖一对注册表服务器来托管易失性应用数据时,传统的高可用性配置会将这两个注册表实例安装在不同的硬件服务器上,以避免单个硬件故障同时影响两个实例。虽然将两个注册表实例放在同一服务器上可能会使易失性数据的镜像速度更快,但会产生单点故障。因此,高可用性系统的架构师会牺牲一些性能和增加一定的网络利用率,以消除部署应用中的单点故障。
3. 云计算中无单点故障保证
“资源池化”是云计算的一个基本特征,促使云服务提供商最大限度地利用资源。云计算限制了应用架构师和云消费者对软件组件实例映射到物理硬件资源的明确控制能力,因为云服务提供商负责资源分配决策。此外,虚拟机管理程序支持虚
超级会员免费看
订阅专栏 解锁全文
2179

被折叠的 条评论
为什么被折叠?



