使用zabbix discovery监控网卡百兆

Zabbix网络监控优化

最新推荐文章于 2024-04-15 19:55:55 发布

转载最新推荐文章于 2024-04-15 19:55:55 发布 · 177 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/434602

文章标签：

#运维

本文讨论了使用Zabbix进行网络监控的最佳实践，包括如何利用Low-level Discovery特性自动生成监控项，针对网络速度变化的监控触发器调整，以及网卡绑定（bonding）模式下流量分布的观察。

最近在review一些基础监控项，发现有部分基础的监控缺失，比如disk usage,network card相关的监控。

因为机器的配置不同，不太好配置一个统一的模板，不过在新版本的zabbix中有个功能Low-level discovery，可以根据主机的配置自动生成需要的监控，只需要传入宏变量即可。

比如监控每个网卡的出流量net.if.out[{#IFNAME}]，监控网卡的speed os.get[NetworkCardSpeed,{#IFNAME}]

有些情况下网卡会从1000M变成100M，因此添加了相关的trigger:

{os.get[NetworkCardSpeed,{#IFNAME}].last(0)}<1000

这里有两个细节的问题：

1）新版本的network card speed的item是os.get[NetworkCardSpeed,xxxx],在网卡的speed为unknown时，其结果是0。

zabbix_get -s 127.0.0.1 -k 'os.get[NetworkCardSpeed,eth2]'
0

为了排除这种情况，更改trigger为如下规则：

{os.get[NetworkCardSpeed,{#IFNAME}].last(0)}<1000 &

{os.get[NetworkCardSpeed,{#IFNAME}].last(0)}#0

可以通过如下sql查看speed 为100M的机器：

select
distinct(a.host),c.ip,b.name,b.lastvalue from hosts a,items b,
interface c where a.hostid=c.hostid and a.hostid=b.hostid and

b.key_ like 'os.get[NetworkCardSpeed%' and b.lastvalue='1000';

2）关于bonding

由于datanode的shuffle阶段需要大量的网络操作，很容易出现网卡瓶颈，因此datanode一般会做网卡的bonding，常用的模式是6,根据原理来看outgoing和incoming的流量大致应该是相同的，但实际情况下看到，outgoing的流量一般是比较平均，而incoming的流量相差很大,下面是一个sar的结果：

14时24分28秒     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s  rxmcst/s
14时24分29秒      eth0      6.93  28139.60    473.27 41837599.01      0.00      0.00      6.93
14时24分29秒      eth1  29448.51  31732.67 1929669.31 47286517.82      0.00      0.00      6.93
14时24分29秒     bond0  29455.45  59872.28 1930142.57 89124116.83      0.00      0.00     13.86