一.部署zabbix架构
- 部署zabbix架构参考,https://blog.youkuaiyun.com/qq_42761527/article/details/105590537
- 指定脚本路径,参考:https://blog.youkuaiyun.com/qq_42761527/article/details/105759398
二.配置钉钉告警
- 创建钉钉群组,生成机器人告警链接
注:群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。
群机器人支持Webhook协议的自定义接入,支持更多可能性。
- 设置钉钉告警脚本
[root@server alertscripts]# ll
总用量 8
-rwxr-xr-x. 1 zabbix zabbix 1036 4月 27 08:04 dingding.py
-rwxr-xr-x. 1 zabbix zabbix 163 4月 26 17:03 mailx.sh
[root@server alertscripts]# cat dingding.py ##脚本的执行权限和属性需要自行添加
#!/usr/bin/env python
#coding:utf-8
#zabbix钉钉报警
import requests,json,sys,os,datetime
#这里设置为复制链接
webhook="https://oapi.dingtalk.com/robot/send?access_token=c302b1664b32c0e95dcc80f18eecb8bb2fdaa772aede62be53d206e608a3ed40"
user=sys.argv[1]
text=sys.argv[3]
data={
"msgtype": "text",
"text": {
"content": text
},
"at": {
"atMobiles": [
user
],
"isAtAll": False
}
}
headers = {'Content-Type': 'application/json'}
x=requests.post(url=webhook,data=json.dumps(data),headers=headers)
#以下指定日志文件的内容,日志文件需要自行创建
if os.path.exists("/usr/local/zabbix/log/dingding.log"):
f=open("/usr/local/zabbix/log/dingding.log","a+")
else:
f=open("/usr/local/zabbix/log/dingding.log","w+")
f.write("\n"+"--"*30)
if x.json()["errcode"] == 0:
f.write("\n"+str(datetime.datetime.now())+" "+str(user)+" "+"发送成功"+"\n"+str(text))
f.close()
else:
f.write("\n"+str(datetime.datetime.now()) + " " + str(user) + " " + "发送失败" + "\n" + str(text))
f.close()
[root@server alertscripts]# mkdir /usr/local/zabbix/log
[root@server alertscripts]# touch /usr/local/zabbix/log/dingding.log
[root@server alertscripts]# chown zabbix.zabbix /usr/local/zabbix/log/dingding.log
- 测试报警脚本是否正确执行
- 在web界面上,设置报警媒介类型
管理--》报警媒介类型--》创建报警媒介
名称:钉钉告警
类型:脚本
脚本名称:dingding.py
脚本参数:
{ALERT.SENDTO}
{ALERT.SUBJECT}
{ALERT.MESSAGE}
- 在用户中添加报警媒介
管理--》用户--》Admin--》报警媒介--》添加
类型:钉钉告警
收件人:填入钉钉群组中的手机号
- 创建相关动作
配置--》动作--》创建动作
动作:
名称:钉钉告警
新的触发条件:
主机群组 等于 Linux servers
操作
默认操作步骤持续时间: 1h
默认标题:服务器:{TRIGGER.STATUS}发送:{TRIGGER.NAME}故障
消息内容:
告警主机:{HOST.NAME}
告警地址:{HOST.IP}
监控项目:{ITEM.NAME}
监控取值:{ITEM.LASTVALUE}
告警等级:{TRIGGER.SEVERITY}
当前状态:{TRIGGER.STATUS}
告警信息:{TRIGGER.NAME}
告警时间:{EVENT.DATE} {EVENT.TIME}
事件ID:{EVENT.ID}
恢复操作
默认标题:服务器:{HOST.NAME}: {TRIGGER.NAME}已恢复!
消息内容:
告警主机:{HOST.NAME}
告警地址:{HOST.IP}
监控项目:{ITEM.NAME}
监控取值:{ITEM.LASTVALUE}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
告警时间:{EVENT.DATE} {EVENT.TIME}
恢复时间:{EVENT.RECOVERY.DATE} {EVENT.RECOVERY.TIME}
持续时间:{EVENT.AGE}
事件ID:{EVENT.ID}
当前状态:{TRIGGER.STATUS}
更新操作
默认标题:服务器:{HOST.NAME}: 报警确认
消息内容:
确认人:{USER.FULLNAME}
时间:{ACK.DATE} {ACK.TIME}
确认信息如下:
"{ACK.MESSAGE}"
问题服务器IP:{HOSTNAME1}
问题ID:{EVENT.ID}
当前的问题是: {TRIGGER.NAME}
- 测试告警功能