HBase的split分析

最新推荐文章于 2024-06-03 00:05:20 发布

PunWinger

最新推荐文章于 2024-06-03 00:05:20 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： HBase 文章标签：大数据 HBase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Pun_C/article/details/47173453

本文深入剖析了HBase的split机制，从split的具体实现、入口判断、执行过程到预Split操作，详细阐述了HBase如何动态平衡负载，避免热点问题。split过程中涉及HRegion的分裂、数据的重新分布以及读写请求的处理，确保了数据一致性。预Split操作可以在导入大量数据时提升效率，减少额外的IO开销。总结中提到，split虽然提供了便利，但也存在IO消耗，需要根据业务场景灵活选择预split或手动split策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBase在新建一个表的时候，默认会把所有数据都会放在一个HRegion上，主节点HMaster根据一定的策略把HRegion分配到不同的HRegionServer从节点上，客户端在进行读写操作的时候，就会访问对应HRegionServer的HRegion。当HRegion的数据量超过阀值的时候，为了防止单个热点访问带来的压力，HBase就会对HRegion进行split操作，一个父HRegion分为两个子HRegion，后续的数据写入操作就会分配到两个HRegion里，减轻了单个热点的负载。由此可以看到split是一种动态的负载平衡机制。如果对数据库知识有过一定了解，就会发现这就是数据库常用的sharding技术，只不过HBase提供了自动化处理，减轻维护开销。另外split会产生额外的IO，实际实践中也有手动关闭该特性，按照规模进行预先分配HRegion的做法。

具体实现

split是把数据平均分配的操作：按照父HRegion的SplitKey（约为rowKey范围的中间值）把父HRegion分成两个子HRegion后，同时会把父HRegion的数据也会重新写入到两个子HRegion上。另外子HRegion的rowKey范围是父HRegion的各自一半，这样后面的rowKey就会按照范围插入对应的HRegion。split在执行过程中采取一些做法避免影响读写请求，由于split过程需要较长时间大量的IO操作，如果发生故障就需要有效的failover机制，防止数据处于不一致的状态。整个步骤可以参考文章的这个图，其中有些细节不同，但大致过程基本一致。

split入口

当memstore flush操作后，HRegion写入新的HFile或者HStore刚刚进行完compact操作后，这两个操作都有可能产生较大的HFile，HBase就会调用CompactSplitThread.requestSplit判断是否需要split操作。这个判断如下：<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。