昨天在检查线上的mapreduce job的时候 发现在inputformat类中进行hbase scan操作的过程中出现了取到了重复的rowkey。通过hbase shell 获取到的rowkey数量小于通过hbase api获取到的rowkey。一时还没搞明白怎么回事,最后把目光scan 上面 发现之前为了优化scan操作 进行了 cache 和batch的设置。而batch的设置为10 也就是对每一行的rowkey所对应的数据分批次取,每次取10个 cell单元,而操作的微博数据索引表 却有三十几个列值,因此出现了多个重复rowkey的记录
因为业务的需要 只能取消了batch的设置,最后恢复正常 之前scan这块的细节并没有彻底去了解。
hbase中关于scan的操作
最新推荐文章于 2024-10-19 09:44:53 发布