整个集群重点关注的几个指标:
- 集群 FE JVM 堆统计
- 集群BE内存使用情况概览
- Max Replayed journal id
- BDBJE Write
- Tablet调度情况
- BE IO统计
- BE Compaction Score
- Query Statistic这部分查询请求数及响应时间
- BE BC(Base Compaction)和CC(Compaction Cumulate)
总览视图
1.1 Doris FE状态
如果FE节点将显示为彩色点表示该节点已经掉线。如果所有前端都活着,则所有点都应为绿色。
1.2 Doris BE状态
宕机的BE节点将显示为彩色点。如果所有BE都活着,则所有点都应为绿色。
1.3 集群 FE JVM 堆统计
每个 Doris 集群的每个前端的 JVM 堆使用百分比。
1.4 集群 BE CPU 使用情况
每个 Doris 集群的后端 CPU 使用情况概览。
1.5 集群BE内存使用情况概览
每个 Doris 集群的 BE 内存使用情况概览。
1.6 集群 QPS 统计
按集群分组的 QPS 统计信息。每个集群的 QPS 是在所有FE处理的所有查询的总和。
1.7 集群磁盘状态
磁盘状态。绿色点表示该磁盘处于联机状态。红点表示该磁盘处于离线状态,处理离线状态的磁盘表示可能磁盘损坏,需要运维修复或者更换磁盘进行处理。
2.集群概览
2.1 集群概览
FE Node:总的FE节点数
FE Alive:当前正常的FE节点数
BE Node:集群中BE的节点总数
BE Alive:当前集群充正常存活的BE节点数,如果这个数量和BE Node的数量不一致说明集群中有掉线的BE节点,需要去查看处理
Uesd Capacity:当前集群已使用的磁盘空间
Total Capacity:集群整体存储空间
2.2 Max Replayed journal id
Doris FE的最大重播元数据日志 ID。正常Master的journal id最大,其他非Master FE节点的这个值基本保持一致,小于Master节点的这值,如果有FE节点这个值和其他节点差别特别大,说明这个节点元数据版本太旧,数据会存在不一致的情况,这种情况下可以将该节点从集群中删除,然后在作为一个新的FE节点加入进来,这样正常情况下这个值和其他节点就会保持一致。
这个值也可以通过Doris的Web界面看到,从下图上看,两个非Master节点的值是一样的,也会存在不一致的情况,不过差别会很小,也会很快的就变成一致的。
2.3 Image counter
Doris Master FE 元数据image生成计数器。并且 Image 计数器成功推送到其他非Master节点。这些指标预计会以合理的时间间隔增加通常,它们应该相等。
2.4 BDBJE Write
这是一个重要监控指标
BDBJE 写入情况,正常都是毫秒级别,如果出现秒级的写入速度就要警惕了,可能会出现元数据写入延迟,严重可能会引起写入错误。
BDBJE:Oracle Berkeley DB Java Edition (opens new window)。在 Doris 中,我们使用 bdbje 完成元数据操作日志的持久化、FE 高可用等功能
左侧 Y 轴显示 99th 写入延迟。右侧的 Y 轴显示日志的每秒写入次数。