Promox VE超融合私有云部署并用于生产系统以后,并不能一劳永逸,这仅仅是万里长征走完了第一步。虽然超融合私有云本身提供了非常高的可用性,但并不保证整个系统在运行中不会整体崩溃。因此,好的系统加上好的维护,才是正途。
Promox VE超融合私有云日常维护大概有以下几项:
运行状态:cpu使用率、内存使用率、磁盘使用率。当某个指标随着运行时间的增加而可能超过告警值,这时就需要对负载进行有效的分担,比如迁移负载高节点的虚拟机到负载低的节点、或者调整虚拟机的硬件配置。

网络及服务监控:监控物理节点网络流量、物理节点主机资源及服务、虚拟机主机资源及服务。这些监控,与物理机监控相同。我个人的喜好,是把流量监控与服务监控独立开来,用cacti监控交换机端口,从而了解到服务器的流量;而用centreon监控各项服务。相对于zabbix动不动就上百个监控项,以nagios封装的centreon更简洁易用一些。

故障处理:Promox VE超融合私有云故障可能有物理节点故障、虚拟机故障、集群故障、ceph去中心化存储故障等等(网络故障出现几率少)。
容量扩充或者节点下线:当现有资源不足以承载业务时,需要对Promox VE的容量进行扩充。正常情况下,对集群进行节点缩减的情况还是
本文介绍了Promox VE超融合私有云的日常维护,包括运行状态监控、网络及服务监控、故障处理、容量管理和软件更新。重点讨论了如何处理磁盘和网络IO问题,以及节点故障的应对策略,旨在确保系统的稳定运行。
订阅专栏 解锁全文
1797

被折叠的 条评论
为什么被折叠?



