HBase学习之六: hbase的预分区设计

本文介绍HBase预分区的设计原理及实现方法,通过实例演示如何通过预设rowkey范围创建多个空region,解决写热点问题并减少region分裂带来的资源消耗。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

HBase学习之六: hbase的预分区设计

标签: hbase
  137人阅读  评论(0)  收藏  举报
  分类:
 

背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断  增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵的集群I/O资源。基于此我们可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowky,这样只要我们的rowkey设计能均匀的命中各个region,就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为预分区,下面给出一种预分区的实现方式:
首先看没有进行预分区的表,startkey和endkey为空。

要进行预分区,首先要明确rowkey的取值范围或构成逻辑,以我的rowkey组成为例:两位随机数+时间戳+客户号,两位随机数的范围从00-99,于是我划分了10个region来存储数据,每个region对应的rowkey范围如下:
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-
在使用HBase API建表的时候,需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。下面是java 代码实现:

[java]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <span style="font-family:Arial;">private byte[][] getSplitKeys() {  
  2.         String[] keys = new String[] { "10|""20|""30|""40|""50|",  
  3.                 "60|""70|""80|""90|" };  
  4.         byte[][] splitKeys = new byte[keys.length][];  
  5.         TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);//升序排序  
  6.         for (int i = 0; i < keys.length; i++) {  
  7.             rows.add(Bytes.toBytes(keys[i]));  
  8.         }  
  9.         Iterator<byte[]> rowKeyIter = rows.iterator();  
  10.         int i=0;  
  11.         while (rowKeyIter.hasNext()) {  
  12.             byte[] tempRow = rowKeyIter.next();  
  13.             rowKeyIter.remove();  
  14.             splitKeys[i] = tempRow;  
  15.             i++;  
  16.         }  
  17.         return splitKeys;  
  18. }</span>  


需要注意的是,在上面的代码中用treeset对rowkey进行排序,必须要对rowkey排序,否则在调用admin.createTable(tableDescriptor,splitKeys)的时候会出错。创建表的代码如下:

[java]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <span style="font-family:Arial;">/** 
  2.      * 创建预分区hbase表 
  3.      * @param tableName 表名 
  4.      * @param columnFamily 列簇 
  5.      * @return 
  6.      */  
  7.     @SuppressWarnings("resource")  
  8.     public boolean createTableBySplitKeys(String tableName, List<String> columnFamily) {  
  9.         try {  
  10.             if (StringUtils.isBlank(tableName) || columnFamily == null  
  11.                     || columnFamily.size() < 0) {  
  12.                 log.error("===Parameters tableName|columnFamily should not be null,Please check!===");  
  13.             }  
  14.             HBaseAdmin admin = new HBaseAdmin(conf);  
  15.             if (admin.tableExists(tableName)) {  
  16.                 return true;  
  17.             } else {  
  18.                 HTableDescriptor tableDescriptor = new HTableDescriptor(  
  19.                         TableName.valueOf(tableName));  
  20.                 for (String cf : columnFamily) {  
  21.                     tableDescriptor.addFamily(new HColumnDescriptor(cf));  
  22.                 }  
  23.                 byte[][] splitKeys = getSplitKeys();  
  24.                 admin.createTable(tableDescriptor,splitKeys);//指定splitkeys  
  25.                 log.info("===Create Table " + tableName  
  26.                         + " Success!columnFamily:" + columnFamily.toString()  
  27.                         + "===");  
  28.             }  
  29.         } catch (MasterNotRunningException e) {  
  30.             // TODO Auto-generated catch block  
  31.             log.error(e);  
  32.             return false;  
  33.         } catch (ZooKeeperConnectionException e) {  
  34.             // TODO Auto-generated catch block  
  35.             log.error(e);  
  36.             return false;  
  37.         } catch (IOException e) {  
  38.             // TODO Auto-generated catch block  
  39.             log.error(e);  
  40.             return false;  
  41.         }  
  42.         return true;  
  43.     }</span>  


在hbase shell中输入命令san 'hbase:meta'查看建表结果:

从上图可看出10个region均匀的分布在了3台regionserver上(集群就3台机器regionserver),达到预期效果。还可以在hbase的web UI界面中更加直观的查看建表的预分区信息。

再看看写数据是否均匀的命中各个region,是否能够做到对写请求的负载均衡:

[java]  view plain  copy
  在CODE上查看代码片 派生到我的代码片
  1. <span style="font-family:Arial;">public class TestHBasePartition {  
  2. public static void main(String[] args) throws Exception{  
  3.    HBaseAdmin admin = new HBaseAdmin(conf);  
  4.    HTable table = new HTable(conf, "testhbase");  
  5.    table.put(batchPut());  
  6. }  
  7.   
  8. private static String getRandomNumber(){  
  9.         String ranStr = Math.random()+"";  
  10.         int pointIndex = ranStr.indexOf(".");  
  11.         return ranStr.substring(pointIndex+1, pointIndex+3);  
  12.     }  
  13.       
  14.     private static List<Put> batchPut(){  
  15.         List<Put> list = new ArrayList<Put>();  
  16.         for(int i=1;i<=10000;i++){  
  17.             byte[] rowkey = Bytes.toBytes(getRandomNumber()+"-"+System.currentTimeMillis()+"-"+i);  
  18.             Put put = new Put(rowkey);  
  19.             put.add(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs"+i));  
  20.             list.add(put);  
  21.         }  
  22.         return list;  
  23.     }  
  24. }</span>  


我写了1万条数据,从Write Request Count一栏可以查看写请求是否均匀的分布到3台机器上,实测我的达到目标,完成。参考文章:
http://www.cnblogs.com/bdifn/p/3801737.html
http://blog.youkuaiyun.com/chaolovejia/article/details/46375849
http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值