【HBase运维】利用HFile的元数据快速统计表的KV数量

当面对拥有大量region的HBase表时,传统的count命令效率低下。文章探讨了一种通过分析HFile的entryCount属性来统计行数的策略,尤其在表数据经过compaction且无重复写入的情况下,这种方法更为适用。通过运行特定命令获取HFile的metadata,然后使用脚本处理,可以实现高效统计。

在运维HBase的过程中,经常会遇到用户有统计表的行数的需求,如果表的数量比较小,那么在shell 里面采用count 就可以解决问题,一般1-2个region的都可以采用这个方式,而一旦是几十region , 甚至是上百个region 的时候,这个时候用count就不现实了,那么还有没有什么其他方式呢?

通过查看HBase的代码,发现了HFile在FixedFileTrailer有一个变量

  /**
   * The number of key/value pairs in the file. This field was int in version 1,
   * but is now long.
   */
  private long entryCount;

解释里面说,这个指代表HFile里面kv数量,但是这个跟行数是有区别的。

image.png

上图中,Table 7 如果用count的话,只有1行,但是KV数量,如果只写了1次的话,那么就只有2个,如果写了多次,那就另算。

基于这个前提,如果知道表没有重复写,或者表经过了compaction , 只保留了一个版本的数据,那么可以通过统计HFile里面的entries来统计表的行数:

hbase org.apache.hadoop.hbase.io.hfile.HFile

image.png

采用–printmeta -f /HFile的路径

得到如下内容:

image.png

拿到我们需要的信息,后面通过脚本处理就可以。

如果你有其他更好的方式,欢迎评论和我交流。

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

QGBigdata

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值