使用Zabbix实现目标:Zabbix去监控集群中三台节点的datanode进程,只要任何一台datanode进程挂断,就发出通知。
1 Zabbix实战
1.1 创建Host
1)点击配置/主机/创建主机
2)配置主机(Host)
3)查看新增(Host)
4)重复以上步骤,再创建hadoop103、hadoop104主机。
1.2 创建监控项(Items)
1)点击监控项(Items)
以hadoop102为例
2)点击创建监控项(Create Item)
3)配置监控项(Item)
4)查看创建的监控项
5)查看监控项最新数据
1.3 创建触发器(Trigger)
1)点击配置/主机/触发器
2)点击创建触发器
3)编辑触发器
1.4 创建报警媒介类型(Media type)
1)点击管理/报警媒介类型/Email
2)编辑Email
3)测试Email
1.5 创建动作(Action)
1)点击配置/动作/创建动作
2)编辑动作(Action)
2 Zabbix使用之测试&模板
2.1 测试
关闭集群中的HDFS,会有如下效果
查看仪表盘故障信息
2.2 创建模板
1)点击配置/模板/创建模板
2)配置模板名称/群组
3)配置监控项
4)配置触发器
5)应用到103、104节点上
hadoop104相同的操作
6)配置动作
最开始配置发送邮件的动作只关联了hadoop102这台主机的触发器,所以,如果103、104的datanode挂了,是不会触发这个动作的。
7)测试
[zhang@hadoop102 ~]$ start-dfs.sh
[zhang@hadoop102 ~]$ stop-dfs.sh
所以,Zabbix模板已经生效。