Rowkey设计需要遵循三个原则,即长度原则、散列原则、唯一原则。
1. 长度原则 由于Rowkey是一个二进制码流,可以是任意字符串,最大长度64kb,实际应用中一般为10- 100bytes,以byte形式保存,一般设计成定长。 建议越短越好,不要超过16个字节,设计过长会降低 MemStore内存的利用率和HFile存储数据的效率。
2. 散列原则 建议将Rowkey的高位作为散列字段,这样将提高数据均衡分布在每个RegionServer,以实现负载均 衡。
3. 唯一原则 必须在设计上保证其唯一性。
热点问题:当大量的Client通过RowKey定位行数据,集中访问一个或者几个RS节点的时候,目标RS会面临请求多,负载大的情况;而其他RS则空闲.
解决方案:
1.预分区:预分区的目的让表的数据可以均衡的分散在集群中,而不是默认只有一个Region分布在集群的 一个节点上。
2.加盐:这里所说的加盐不是密码学中的加盐,而是在Rowkey的前面增加随机数,具体就是给Rowkey分配 一个随机前缀,从而使得它和之前的Rowkey的开头不同。
3.哈希:哈希会使同一行永远用一个前缀加盐,也可以使负载分散到整个集群,但是读却是可以预测的,使 用确定的哈希可以让客户端重构完整的Rowkey,可以使用get操作准确获取某一个行数据。
4.反转:反转固定长度或者数字格式的Rowkey,这样可以使得Rowkey中经常改变的部分(最没有意义的部 分)放在前面,这样可以有效的随机Rowkey,但是牺牲了Rowkey的有序性。
(注:转自"大数据面试真题",非原创,无链接)