业务背景
OpenTSDB 是一款非常适合存储海量时间序列数据的开源软件,使用 HBase 作为存储让它变的非常容易扩展。我们在建设美团性能监控平台的过程中,每天需要处理数以亿计的数据,经过几番探索和调研,最终选取了 OpenTSDB 作为数据存储层的重要组件。OpenTSDB 的安装和配置过程都比较简单,但是在实际的业务应用中,还是会出现这样那样的问题,本文详细介绍我们在OpenTSDB 实际使用过程中遇到的 HBase 整点压力过大的问题,期望对大家有些参考意义。
问题的出现
性能监控平台使用 OpenTSDB 负责存储之后不久(创建的表名称是 tsdb-perf),数据平台组的同事发现,tsdb-perf 这个表在最近这段时间每天上午 10 点左右有大量的读操作,造成 HBase 集群压力过大,但是想去分析问题的时候发现读操作又降为 0 了,为了避免类似情况未来突然发生,需要我来排查下原因。
于是我就想:性能监控平台目前只是个内部系统,用户使用量不大,并且只有在用户需要查看数据时去查询,数据读取量不应该造成 HBase 的压力过大。
重现问题
如果要解决这个问题,稳定重现是个必要条件,根据数据平台组同事的反馈,我们做了更详细的监控,每隔两分钟采集性能监控平台所用的 HBase 集群的读操作数量,发现是下面的变化趋势:
13:00:05 0
13:02:01 66372
13:04:01 96746
13:06:02 101784
13:08:01 99254
13:10:02 2814
13:12:01 93668
13:14:02 93224
13:16:02 90118
13:18:02 11376
13:20:01 85134
13:22:01 81880
13:24:01 80916
13:26:01 77694
13:28:02 76312
13:30:01 73310
13:32:02 0
13:34:01 0
13:36:01 0
13:38:02 0
13:40:01 0
13:

本文深入探讨了美团性能监控平台使用OpenTSDB存储数据时,HBase集群在整点遭遇压力过大的问题。通过详尽的监控和分析,揭示了OpenTSDB内部Compaction机制是罪魁祸首,最终提出了解决方案。
最低0.47元/天 解锁文章
561

被折叠的 条评论
为什么被折叠?



