HBase>HBase的rowKey设计技巧

最新推荐文章于 2024-11-12 23:16:17 发布

原创

最新推荐文章于 2024-11-12 23:16:17 发布 · 190 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hbase

本文介绍了HBase中rowKey的设计原则，包括长度、散列和唯一性，以避免热点问题并提升查询效率。rowKey应保持较短，通常不超过16字节，高位用于散列，低位放置时间戳，确保数据在RegionServer间的均衡分布。同时，讨论了加盐、哈希和反转等避免热点的方法，以及关于行键和列族大小的优化建议。

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。
HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：

1.通过get方式，指定rowkey获取唯一一条记录
2.通过scan方式，设置startRow和stopRow参数进行范围匹配
3.全表扫描，即直接扫描整张表中所有行记录

1 rowkey长度原则

rowkey是一个二进制码流，可以是任意字符串，最大长度64kb，实际应用中一般为10-100bytes，以byte[]形式保存，一般设计成定长。
建议越短越好，不要超过16个字节，原因如下：

数据的持久化文件HFile中是按照KeyValue存储的，如果rowkey过长，比如超过100字节，1000w行数据，光rowkey就要占用100*1000w=10亿个字节，将近1G数据，这样会极大影响HFile的存储效率；
MemStore将缓存部分数据到内存，如果rowkey字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率。

2 rowkey散列原则

如果rowkey按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey的高位作为散列字段，由程序随机生成，低位放时间字段，这样将提高数据均衡分布在每个RegionServer，以实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息，所有的数据都会集中在一个RegionServer上，这样在数据检索的时候负载会集中在个别的RegionServer上，造成热点问题，会降低查询效率。

3 rowkey

最低0.47元/天解锁文章