HBase中不建议使用过多列族

最新推荐文章于 2024-06-29 10:38:56 发布

原创最新推荐文章于 2024-06-29 10:38:56 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

HBase 专栏收录该内容

14 篇文章

订阅专栏

HBase中列族过多会导致内存中MemStore增多，影响Flush、Split和Compaction操作，产生更多小文件并消耗RegionServer内存。列族数过多也可能超出HDFS目录文件限制，建议控制在3个以内。

HBase列族个数限制

列族数对 Flush 的影响
列族数对 Split 的影响
列族数对 Compaction 的影响
列族数对 HDFS 的影响
列族数对 RegionServer 内存的影响

为什么HBase会有列族的概念呢？
一行由若干列组成，若干列又构成一个列族（column family），这不仅有助于构建数据的语义边界或者局部边界，还有助于给它们设置某些特性（如压缩）或者指示他们存贮在内存中，一个列族的所有列存贮在同一个底层的存储文件中，这个存储文件叫做HFile。Hbase官方文档中写明，目前列族数量最优不超过3个

列族数对 Flush 的影响

在 HBase 中，调用 API 往对应的表插入数据是会写到 MemStore 的，而 MemStore 是一种内存结构，每个列族对应一个 MemStore（和零个或多个 HFile）。越多的列族，将会导致内存中存在越多的 MemStore；而储存在 MemStore 中的数据在满足一定条件的时候将会进行 Flush 操作；每次 Flush 的时候，每个 MemStore 将在磁盘生产一个 HFile 文件。这样会导致越多的列族最终持久化到磁盘的 HFile 越多。更要命的是，当前 Flush 操作是 Region 级别的（从HBase 1.1，HBase 2.0 开始 Flush 可以设置成列族级别），即 Region 中某个 MemStore 被 Flush，同一个 Region 的其他 MemStore 也会进行 Flush 操作。当表有很多列族，而且列族之间数据不均匀，比如一个列族有100W行，一个列族只有10行，这样会导致持久化到磁盘的文件数很多，同时有很多小文件，而且每次 Flush 操作也涉及到一定的 IO 操作。
为了解决每次 Flush 都对整个 Region 中 MemStore 进行的，HBASE引入了对 Flush 策略进行选择的功能（hbase.regionserver.flush.policy），可以仅对超过阈值（hbase.hregion.percolumnfamilyflush.size.lower.bound.min）的 MemStore 进行 Flush 操作。但是如果没有 MemStore 大于这个阈值，还是会对所有的 MemStore 进行 Flush 操作。
此外，如果列族数过多，可能会导致触发 RegionServer 级别的 Flush 操作；这将会导致落在该 RegionServer上的更新操作被阻塞，而且阻塞时间可能会达到分钟级别。

列族数对 Split 的影响

当 HBase 表中某个 Region 过大（当 Region 中某个最大的 Store/HFile/storeFile 大于 hbase.hregion.max.filesize 会触发 Region 拆分的），会被拆分成两个。如果有很多个列族，而这些列族之间的数据量相差较大，比如有些列族有 100W 行，而有些列族只有10行，这样在 Region Split 的时候会导致原本数据量很小的 HFile 文件进一步被拆分，从而产生更多的小文件。注意，Region Split 是针对所有的列族进行的，这样做的目的是同一行的数据即使在 Split 后也是存在同一个 Region 的。

列族数对 Compaction 的影响

与 Flush 操作一样，目前 HBase 的 Compaction 操作也是 Region 级别的，过多的列族也会产生不必要的 IO。

列族数对 HDFS 的影响

HDFS 其实对一个目录下的文件数有限制的（dfs.namenode.fs-limits.max-directory-items）。如果有 N 个列族，M 个 Region，那么持久化到 HDFS 至少会产生 N* M 个文件；而每个列族对应底层的 HFile 文件往往不止一个，假设为 K 个，那么最终表在 HDFS 目录下的文件数将是 N* M* K，这可能会超出 HDFS的限制。

列族数对 RegionServer 内存的影响

一个列族在 RegionServer 中对应于一个 MemStore。而 HBase 从 0.90.1 版本开始引入了 MSLAB（Memstore-Local Allocation Buffers），这个功能默认是开启的（通过hbase.hregion.memstore.mslab.enabled），这使得每个 MemStore 在内存占用了 2MB （通过hbase.hregion.memstore.mslab.chunksize 配置）的 buffer。如果有很多的列族，而且一般一个 RegionServer 上会存在很多个 Region，这么算起来光 MemStore 的缓存就会占用很多的内存。要注意的是，如果没有往 MemStore 里面写数据，那么 MemStore 的 MSLAB 是不占用空间的。