南修子学Hbase_Hbase基本架构

最新推荐文章于 2025-11-22 19:46:52 发布

原创最新推荐文章于 2025-11-22 19:46:52 发布 · 148 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hbase

Hbase 专栏收录该内容

19 篇文章

订阅专栏

图1：简版Hbase架构图

图2：完整版网上流传的架构图

HMaster

HMaster的主要功能有：
把HRegion分发到某一个RegionServer。因为Hbase中一张表如果容量超过配置的上线，就会进行切片操作，一个region就会变成两个region，这时候就需要HMaster对region进行分发，Hmaster会尽可能平均的分配给所有的RegionServer。

有RegionServer宕机了，HMaster可以把这台机器上的Region迁移到active的RegionServer上。
③对HRegionServer进行监控和负载均衡。 ④通过HDFS的dfs client接口回收垃圾文件（无效日志等）
注：HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master
Election机制保证总有一个Master运行。
管理hbase的元数据，也就是命名空间Hbase里面的数据

HRegionServer

RegionServer其实就对应一台机器，或者说是对应一台机器上面的HRegionServer进程
负责维护HMaster分配给它的HRegion，处理对这些HRegion的IO请求，也就是说客户端直接和HRegionServer打交道。（从图中也能看出来）
负责切分正在运行过程中变得过大的HRegion，就是splitRegion操作

https://blog.youkuaiyun.com/u013080251/article/details/68980215

HRegion

每个HRegion由多个Store构成，每个Store保存一个列族（Columns Family），表有几个列族，则有几个Store，每个Store由一个MemStore和多个StoreFile组成，MemStore是Store在内存中的内容，写到文件后就是StoreFile。StoreFile底层是以HFile的格式保存。
Region是表获取和分布的基本元素，由每个列族的一个Store组成。对象层级图如下：

Region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上，但并不是存储的最小单元。
Region由一个或者多个Store组成，每个store保存一个columns family，每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中， StoreFile存储在HDFS上。
HBase通过将region切分在许多机器上实现分布式。也就是说，你如果有16GB的数据，只分了2个region， 你却有20台机器，有18台就浪费了。
region数目太多就会造成性能下降，现在比以前好多了。但是对于同样大小的数据，700个region比3000个要好。
region数目太少就会妨碍可扩展性，降低并行能力。有的时候导致压力不够分散。这就是为什么，你向一个10节点的HBase集群导入200MB的数据，大部分的节点是idle的。
RegionServer中1个region和10个region索引需要的内存量没有太多的差别。

http://hbasefly.com/2017/08/27/hbase-split/?wibwbo=gvtxs3

HLog

HLog(WAL log)：WAL意为write ahead log（预写日志），用来做灾难恢复使用，HLog记录数据的变更，包括序列号和实际数据，据在这个日志文件里起到一个备份的作用，所以一旦region server 宕机，就可以从log中回滚还没有持久化的数据。要注意HLog是存储在Hdfs上面的
要往hbase写数据会先往Hlog里面写，后面会写一个详细的Hbase写数据流程
首先，一个HRegionServer中就只有一个HLog。
https://blog.youkuaiyun.com/nysyxxg/article/details/51022925