Hbase中的数据模型

最新推荐文章于 2025-06-09 00:15:00 发布

原创最新推荐文章于 2025-06-09 00:15:00 发布 · 429 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hbase #regionserver #region #store #memstore

hbase 专栏收录该内容

6 篇文章

订阅专栏

首先看一下Hbase的数据整体流向图：

Hbase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读数据；这里主要介绍写数据的部分，即Memstore。当RegionServer(RS)收到写请求的时候(writerequest)，RS会将请求转至相应的Region。每一个Region都存储着一些列(a set of rows)。根据其列族的不同，将这些列数据存储在相应的列族中(Column Family，简写CF)。不同的CF中的数据存储在各自的HStore中，HStore由一个Memstore及一系列HFile组成。Memstore位于RS的主内存中，而HFiles被写入到HDFS中。当RS处理写请求的时候，数据首先写入到Memstore，然后当到达一定的阀值的时候，Memstore中的数据会被刷到HFile中。

用到Memstore最主要的原因是：存储在HDFS上的数据需要按照row key 排序。而HDFS本身被设计为顺序读写(sequential reads/writes)，不允许修改。这样的话，HBase就不能够高效的写数据，因为要写入到HBase的数据不会被排序，这也就意味着没有为将来的检索优化。为了解决这个问题，HBase将最近接收到的数据缓存在内存中(in Memstore)，在持久化到HDFS之前完成排序，然后再快速的顺序写入HDFS。