一、Masakari服务介绍
云客户往往通过使用虚拟机来享受云服务,但是Openstack云系统可能会发生多种类型的故障事件,我们需要确保构建的云系统可以检测并恢复此类事件,虚拟机相关故障事件可能包括:
-
虚拟机崩溃
如,使用
kvm管理虚拟化时,qemu-kvm进程可能会崩溃 -
nova-compute服务可能会意外中断或者无响应 -
虚拟化管理工具
libvirt程序也可能中断或者无响应 -
计算节点所在的
host主机可能会宕机等
我们需要设计方案来满足虚拟机高可用的需求,幸运的 OpenStack 子项目Masakari 帮助我们实现了这一目标,其旨在确保在主机上运行的实例和计算进程的高可用性。
Masakari目前主要提供三种类型的故障事件检测和恢复:
-
虚拟机崩溃
如进程挂了,Masakari检测到该错误类型,会通过三步完成虚拟机故障恢复:停止虚拟机、启动虚拟机、确认虚拟机状态为
active -
计算节点服务进程崩溃
计算节点通过运行
masakari-processmonitor服务检测nova-compute、libvirt等服务,检测到服务异常,将直接重启对应服务,从而保障服务稳定运行 -
计算节点所在
host主机宕机通过
pacemaker+corosync构建集群环境,检测计算节点主机状态,如果主机状态异常,则使用fence设备关闭该节点,并使用nova.evacuate接口,疏散故障主机上的所有实例到新的计算节点。

Masakari是OpenStack的一个子项目,专注于确保虚拟机和计算节点的高可用性。它通过检测和恢复三种类型的故障——虚拟机崩溃、计算服务异常和计算节点主机宕机——来实现这一目标。当检测到故障时,Masakari会执行相应的恢复流程,如重启服务、疏散虚拟机或关闭并重新启动故障节点。服务架构包括在计算节点运行的监控服务和在控制节点运行的API及恢复引擎。此外,Masakari利用pacemaker+corosync集群来检测主机心跳,实现故障节点的电源管理。整个流程确保了云环境中服务的稳定性和数据的安全性。
最低0.47元/天 解锁文章
1371

被折叠的 条评论
为什么被折叠?



