统一监控支持对单个或多个集群的监控,通过对集群节点 Server 的系统资源利用情况、网络通讯情况、进程运行情况和集群运行状态等信息的采集,并根据用户设定的报警策略进行计算,如有报警,及时通知用户报警信息,以避免集群出现故障。
用户可以通过界面查看集群报警信息。如下图:集群报警信息管理
上图中的查询条件描述如下:
报警类型:显示报警类型的多选框, 包括: 报警信息、恢复信息。默认为都不选择,表示选择所有报警类型。
报警等级:显示报警等级的下拉框, 包括: 严重、 次要、 警告、提醒。默认为所有。
服务器 IP:支持输入检索的多选菜单,第一项为“所有服务器”,该项为默认值,其他为集群的所有服务器 IP, IP 按升序排列。
监控指标: 支持多选、模糊查询的下拉框。 指标项为平台管理中该集群所选监控策略的指标项。
报警时间:支持日历控件选择。默认为当前操作最近 24 小时。查询时间包含起止时间。
确认方式:显示报警信息确认方式的选择框, 包括: 手动确认、 超时忽略、 未确认。默认为未确认,支持多选。如果都不选择,表示选择所有确认方式。
手动确认:选择报警记录后,点击手动确认。可以将报警记录的确认方式修改为手动确认。支持多选。
上图中的查询结果描述如下:
输入条件后点击“查询”按钮,查询相关信息并显示。表格默认先按未确认的优先显示,然后按报警时间降序排列。 点击表格表头后,可以按当前列进行升序或降序排列。
表格内容如下:
报警时间:报警的发生时