原理相当简单。就是根据region记录的1/2进行切分。
过程: 指定要split的目的region, 获得region中的行数,算出中间值,根据regionName和这个中间值做split-point, 利用HBaseAdmin的split接口触发最终的split.
整个过程可能需要依赖几个东西:
1.region中有多少记录? 这个我不知道是否有更直接的方法获得。至少一个直观的方法就是可以利用endpoint对表做快速统计(也是我们目前的实现), 从目标region得到startRow和stopRow, 传入scan, 得到目标数据量。
2. 1/2点(中间点)对应的rowkey怎么获得? 中间点简单, region总记录数/2就是。对应的rowkey的话, 可以通过加了SkipFilter/FirstKeyOnlyFilter/PageFilter(1) 3个过滤器的Scan来获得Result, Result.getRow便是。 当然,这里的SkipFilter并不是HBase原生的那个,(原生的那个我打心底觉得它不应该叫SkipFilter), 自己实现一个,hbase端跳过制定数量的记录便行。
目前看起来切分的效果符合预计。
本文详细解析了HBase数据切分的原理和实现过程,包括如何根据region记录进行切分,以及获取中间点对应的rowkey的方法,并讨论了实现效果。
1321

被折叠的 条评论
为什么被折叠?



