HBase预分区

HBase预分区

HBase预分区针对海量导入数据时的热点问题

​ 在创建HBase表的时候默认一张表只有一个region,所有的put操作都会向这一个region中导入数据,当这一个region过大达到阀值时就会进行spilt。如果在创建表的时候就进行预分区则会减少数据量猛增时由于 region spilt带来的资源消耗。

​ HBase表的预分区需要紧密结合业务场景来选择分区的 row Key 值,每个region都会对应一个startRowKey 和一个 stopRowKey 来表示region存储的 rowKey范围。

一,命令行创建预分区

 create 't1', 'cf', SPLITS => ['10', '20', '30'] 

或者:

create 't2', 'cf', SPLITS_FILE => '/home/hadoop/splitfile.txt' 

splitfile.txt中存储的内容如下:

10
20
30

上述语句会创建4 个 region:

HBase的 Web UI 中可以查看到表的分区:
在这里插入图片描述

每个region的命名方式如下:[tableName],[region start Key],[region Id]

切分的区间 ----> 左闭右开

二,API实现

在使用HBase API建表的时候,需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。下面是java 代码实现:


public static void main(String [] args){
    String tableName = "splitTable";
    String columnFamily = "cf1";
    String [] splitStr = {"10","20","30"};
    CreateTableAsync(tableName,columnFamily,splitStr);
}


public boolean CreateTableAsync(String tablename, String columnFamily, String[] splitStr)
{
    TableName tName = TableName.valueOf(tablename);
    try
    {
        if(!hbaseAdmin.tableExists(tName))
        {
            HTableDescriptor newHTD = new HTableDescriptor(tName); // 表名
            HColumnDescriptor newHCD = new HColumnDescriptor(columnFamily); // 列族名
            newHCD.setMaxVersions(1); // 只保留一个版本数据
            newHTD.addFamily(newHCD);
            byte[][] splitKeys = new byte[splitStr.length][]; // 分区
            for(int i = 0; i < splitStr.length; i++)
            {
                splitKeys[i] = splitStr[i].getBytes("utf-8");
            }
            hbaseAdmin.createTable(newHTD, splitKeys);
            return true;
        }
        else
        {
            return false;
        }
    }
    catch(Exception e)
    {
        e.printStackTrace();
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值