HBase预分区
HBase预分区针对海量导入数据时的热点问题
在创建HBase表的时候默认一张表只有一个region,所有的put操作都会向这一个region中导入数据,当这一个region过大达到阀值时就会进行spilt。如果在创建表的时候就进行预分区则会减少数据量猛增时由于 region spilt带来的资源消耗。
HBase表的预分区需要紧密结合业务场景来选择分区的 row Key 值,每个region都会对应一个startRowKey 和一个 stopRowKey 来表示region存储的 rowKey范围。
一,命令行创建预分区
create 't1', 'cf', SPLITS => ['10', '20', '30']
或者:
create 't2', 'cf', SPLITS_FILE => '/home/hadoop/splitfile.txt'
splitfile.txt中存储的内容如下:
10
20
30
上述语句会创建4 个 region:
HBase的 Web UI 中可以查看到表的分区:
每个region的命名方式如下:[tableName],[region start Key],[region Id]
切分的区间 ----> 左闭右开
二,API实现
在使用HBase API建表的时候,需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。下面是java 代码实现:
public static void main(String [] args){
String tableName = "splitTable";
String columnFamily = "cf1";
String [] splitStr = {"10","20","30"};
CreateTableAsync(tableName,columnFamily,splitStr);
}
public boolean CreateTableAsync(String tablename, String columnFamily, String[] splitStr)
{
TableName tName = TableName.valueOf(tablename);
try
{
if(!hbaseAdmin.tableExists(tName))
{
HTableDescriptor newHTD = new HTableDescriptor(tName); // 表名
HColumnDescriptor newHCD = new HColumnDescriptor(columnFamily); // 列族名
newHCD.setMaxVersions(1); // 只保留一个版本数据
newHTD.addFamily(newHCD);
byte[][] splitKeys = new byte[splitStr.length][]; // 分区
for(int i = 0; i < splitStr.length; i++)
{
splitKeys[i] = splitStr[i].getBytes("utf-8");
}
hbaseAdmin.createTable(newHTD, splitKeys);
return true;
}
else
{
return false;
}
}
catch(Exception e)
{
e.printStackTrace();
}
}