Hbase扫描数据流程

最新推荐文章于 2023-04-12 16:16:18 发布

HanJuly9569

最新推荐文章于 2023-04-12 16:16:18 发布

阅读量607

点赞数

分类专栏： hbase 文章标签： hbase 大数据

本文链接：https://blog.youkuaiyun.com/HanJuly9569/article/details/114795918

版权

9 篇文章

订阅专栏

读取的过程中的寻址与大概流程其实与写入是一致的。

重点看：在内存中查找和在StoreFile上的查找过程

从内存到文件

在这里插入图片描述

首先构建scanner体系，构建一个regionScanner -> storeScanner-> storeFileScanner,MemstoreScanner

这里说实话也不太明白，目前只能理解为它是一个组织扫描数据的方式，类似使用设计模式
然后多个scanner过滤掉一定不存在的scanner

根据时间范围和rowkey的范围
找到对应的每个storeFile的数据块的起点的位置(因为彼此邻近的storefile有一些重复的rowkey,但是内容不相同)

因为每个storeFile数据是被切成一个个的数据块来存储，每个数据块的开始rowkey存在索引块中
使用每一个定位的rowkey使用最小堆组织进行排序，然后取出数据确定是否满足条件（我理解的它应该是无法准确定位到rowkey在每一个storeFile都不一样的rowkey，但是网上的图都是这么画的。）（这里的扫描是连MemoryStore一并扫描的）
然后next,进行下一行

在这里插入图片描述

在seek key这一步：

（这里是用在scanner的排序，不是数据的排序，可以理解为）

使用hbase存储的键值对的key进行排序，这个key不是rowkey

在这里插入图片描述

key由以下元素组成：