大数据面试题：HBase为什么查询快

蓦然_

已于 2023-06-27 10:03:49 修改

阅读量1.5k

点赞数 1

分类专栏：大数据面试题文章标签： hbase 大数据面试

于 2023-06-22 12:04:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41544550/article/details/131339546

版权

大数据面试题专栏收录该内容

68 篇文章

订阅专栏

HBase通过LSM树存储、分布式架构、列存储、布隆过滤器和Region负载均衡实现快速读取。数据在内存和磁盘分层存储，按Rowkey查询时，先经过BlockCache和布隆过滤器优化，再在MemStore和HFile中查找，确保高效查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

面试题来源：

《大数据面试题 V4.0》

大数据面试题V3.0，523道题，679页，46w字

可回答：1）HBase为什么读快；2）HBase是根据rowkey查询，当数据量相当大的时候，是怎么读的很快的

参考答案：

1、基于LSM树的存储方式

HBase采用基于LSM树的存储方式，这种存储方式将数据分为内存和磁盘两层存储，内存部分称为MemStore，磁盘部分称为HFile。MemStore存储的数据是有序的，并且每次插入数据时会进行排序和合并，因此可以减少数据的查找和排序开销，提高查询效率。

2、分布式存储架构

HBase采用分布式存储架构，数据可以分散存储在集群中的多台机器上。在查询时，HBase可以利用分布式存储架构进行并行查询，从而提高查询效率。

3、列存储方式

HBase采用列存储方式，同一列族的数据被存储在一起，可以避免不必要的IO操作，提高数据读取效率。

4、布隆过滤器

通过Rowkey定位Region，这当中会先经过BlockCache，这边找不到的话，再经过MemStore和Hfile查询，这当中通过布隆过滤器过滤掉一些不需要查询的HFile。

5、基于Region的负载均衡

HBase会将数据划分为多个Region进行存储，每个Region对应着一段连续的行键。HBase会自动对Region进行负载均衡，保证数据分布均匀，避免热点数据和单点故障。

数据量很大的时候，HBase会拆分成多个Region分配到多台RegionServer。客户端通过meta信息定位到某台RegionServer（也可能是多台），通过Rowkey定位Region，这当中会先从BlockCache（缓存）查找，找不到的话，再从MemStore和HFile查询，这当中通过布隆过滤器过滤掉一些不需要查询的HFile，这样就保证HBase的查询速度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。