- Client
- Zookeeper
- Master
- RegionServer
1 写数据过程
首先是把Log写入到HLog中,HLog是标准的Hadoop Sequence File,由于Log数据量小,而且是顺序写,速度非常快;同时把数据写入到内存MemStore中,成功后返回给Client,所以对Client来说,HBase写的速度非常快,因为数据只要写入到内存中,就算成功了。
接着检查MemStore是否已满,如果满了,就把内存中的MemStore Flush到磁盘上,形成一个新的StoreFile。
当Storefile文件的数量增长到一定阈值后,系统会进行合并(Compact),在合并过程中会进行版本合并和删除工作,形成更大的storefile。
当Storefile大小超过一定阈值后,会把当前的Region分割为两个(Split),并由Hmaster分配到相应的HRegionServer,实现负载均衡
2 读数据过程
由于无法直接修改HBase里的数据,所有的update和delete操作都转换成append操作,而且HBase里也没有索引,因此读数据都是以Scan的方式进行。
Client在读数据时,一般会指定timestamp和ColumnFamily.
首先,根据ColumnFamily可以过滤掉很大一部分Store,这也是HBase作为列式数据库的一大优势。
然后,根据timestamp和Bloom Filter排除掉一些StoreFiles
最后,在剩下的StoreFile (包含MemStore)里Scan查找
本文介绍HBase的架构组成及其读写流程。详细解释了Client如何通过Zookeeper获取Region信息,Master如何管理和调度RegionServer,以及RegionServer的数据处理方式。此外还深入探讨了HBase写数据和读数据的具体过程。
3691

被折叠的 条评论
为什么被折叠?



