Hbase预分区种子生成

Hbase预分区种子生成

提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中.给捷哥赞一个~

复制代码
private static final String[] PARTITIONS = generatPartitionSeed();


//生成3844个分区种子
public static String[] generatPartitionSeed(){
    List<Character>seeds = List.newArrayList();
    for(int i='0';i<='9';i++){
        seeds.add((char) i);
    }
    for(int i = 'A';i<='Z';i++){
        seeds.add((char) i);
    }
    for(int i = 'a';i<='z';i++){
        seeds.add((char) i);
    }
    int k = 0;
   //获得总共的分区个数
    String[] partions = new String[seeds.size()*seeds.get(j));
    for(int i =0;i<seeds.size();i++){
        for(int j=0;j<seeds.size();j++){
           //两两组合成为分区start key
            partions[k] = StringUtil.join(seeds.get(i),seeds.get(j));
            k++;
        }
    }
    return partions;
}    

//按指定数量生成分区种子
public static String[] generatPartitionSeed(int limit){
    int size = PARTITIONS.length;
    int[] space = new int[limit];
    for(int pt = 0;pt<size;){
        for(int j=0;j<space.length;j++){
            ++space[j];
            pt++;
            if(pt == size){
                break;
            }
        }
    }
String[] seed = new String[limit+1];
int position = 0;
for(int i =0;i<space.length;i++){
      seed[i] = PARTITIONS[position];
      position += space[i];
}
seed[seed.length -1] = PARTITIONS[PARTITIONS.length -1];
return seed;
}

//生成后的rowkey
public static String generatRow(String str){
    int i = Math.abs(str.hashCode() % PARTITION.length);
    return StringUtils.join(PARTITIONS[i],"-",str);
}

public static void main(String[] args){
    String[] arr = generatPartitionSeed(100);
    for(int i = 0;i<arr.length;i++){
        System.out.println(arr[i]);
    }
}
HBase 中,预分区是一个很重要的概念,它可以提高 HBase 的性能和可伸缩性。预分区是指在创建 HBase 表时,手动指定表的分区键,以便将数据分布到多个 Region 中。预分区的目的是让数据分布均匀,避免某个 Region 过大而导致负载不均衡的情况。 预分区的设计需要考虑以下几个因素: 1. 数据的访问模式:首先需要了解数据的访问模式,比如是否是范围查询、随机查询等,以便根据不同的访问模式来设计预分区。 2. 数据的分布情况:需要了解数据的分布情况,比如数据的热点区域、数据的更新频率等,以便根据不同的分布情况来设计预分区。 3. 预期的数据量:需要预估未来的数据量,以便根据数据量来设计预分区。 4. 集群的硬件配置:需要了解集群的硬件配置,比如服务器的数量、内存大小、磁盘容量等,以便根据硬件配置来设计预分区。 在设计预分区时,可以采用以下几种策略: 1. 均匀分区:将表的分区键分成相等的若干部分,每个分区大小相等。 2. 范围分区:根据数据的范围来划分分区,比如按照时间范围来划分分区。 3. 哈希分区:根据分区键的哈希值来划分分区,可以确保数据分布均匀。 4. 混合分区:可以将多种分区策略组合起来使用,以便充分利用各种策略的优点。 需要注意的是,预分区的设计需要根据实际情况进行调整和优化,以便达到最佳的性能和可伸缩性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值