Apache Doris Grafana监控指标介绍

整个集群重点关注的几个指标:

- 集群 FE JVM 堆统计

- 集群BE内存使用情况概览

- Max Replayed journal id

- BDBJE Write

- Tablet调度情况

- BE IO统计

- BE Compaction Score

- Query Statistic这部分查询请求数及响应时间

- BE BC(Base Compaction)和CC(Compaction Cumulate)

总览视图

1.1 Doris FE状态

如果FE节点将显示为彩色点表示该节点已经掉线。如果所有前端都活着,则所有点都应为绿色。

图片

1.2 Doris BE状态

宕机的BE节点将显示为彩色点。如果所有BE都活着,则所有点都应为绿色。

图片

1.3 集群 FE JVM 堆统计

每个 Doris 集群的每个前端的 JVM 堆使用百分比。

图片

1.4 集群 BE CPU 使用情况

每个 Doris 集群的后端 CPU 使用情况概览。

图片

1.5 集群BE内存使用情况概览

每个 Doris 集群的 BE 内存使用情况概览。

图片

1.6 集群 QPS 统计

按集群分组的 QPS 统计信息。每个集群的 QPS 是在所有FE处理的所有查询的总和。

图片

1.7 集群磁盘状态

磁盘状态。绿色点表示该磁盘处于联机状态。红点表示该磁盘处于离线状态,处理离线状态的磁盘表示可能磁盘损坏,需要运维修复或者更换磁盘进行处理。

图片

2.集群概览

2.1 集群概览

图片

FE Node:总的FE节点数

FE Alive:当前正常的FE节点数

BE Node:集群中BE的节点总数

BE Alive:当前集群充正常存活的BE节点数,如果这个数量和BE Node的数量不一致说明集群中有掉线的BE节点,需要去查看处理

Uesd Capacity:当前集群已使用的磁盘空间

Total Capacity:集群整体存储空间

2.2 Max Replayed journal id

Doris FE的最大重播元数据日志 ID。正常Master的journal id最大,其他非Master FE节点的这个值基本保持一致,小于Master节点的这值,如果有FE节点这个值和其他节点差别特别大,说明这个节点元数据版本太旧,数据会存在不一致的情况,这种情况下可以将该节点从集群中删除,然后在作为一个新的FE节点加入进来,这样正常情况下这个值和其他节点就会保持一致。

图片

这个值也可以通过Doris的Web界面看到,从下图上看,两个非Master节点的值是一样的,也会存在不一致的情况,不过差别会很小,也会很快的就变成一致的。

图片

2.3 Image counter

Doris Master FE 元数据image生成计数器。并且 Image 计数器成功推送到其他非Master节点。这些指标预计会以合理的时间间隔增加通常,它们应该相等。

图片

2.4 BDBJE Write

这是一个重要监控指标

BDBJE 写入情况,正常都是毫秒级别,如果出现秒级的写入速度就要警惕了,可能会出现元数据写入延迟,严重可能会引起写入错误。

BDBJE:Oracle Berkeley DB Java Edition (opens new window)。在 Doris 中,我们使用 bdbje 完成元数据操作日志的持久化、FE 高可用等功能

左侧 Y 轴显示 99th 写入延迟。右侧的 Y 轴显示日志的每秒写入次数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值