HBase（09）——HBase 建表高级属性

最新推荐文章于 2023-11-25 15:59:24 发布

Fenggms

最新推荐文章于 2023-11-25 15:59:24 发布

阅读量365

点赞数

CC 4.0 BY-SA版权

分类专栏： HBase

本文链接：https://blog.youkuaiyun.com/Fenggms/article/details/82989638

HBase 专栏收录该内容

11 篇文章

订阅专栏

hbase 表预分区----手动分区

 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。

命令方式:
create ‘t1’, ‘f1’, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit’}
也可以使用api的方式:
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter test_table HexStringSplit -c 10 -f info
参数：
test_table是表名
HexStringSplit 是split 方式
-c 是分10个region
-f 是family

这样就可以将表预先分为15个区，减少数据达到storefile 大小的时候自动分区的时间消耗，并且还有以一个优势，就是合理设计rowkey 能让各个region 的并发请求平均分配(趋于均匀) 使IO 效率达到最高，但是预分区需要将filesize 设置一个较大的值，设置哪个参数呢, hbase.hregion.max.filesize 这个值默认是10G 也就是说单个region 默认大小是10G,
这个参数的默认值在0.90 到0.92到0.94.3各版本的变化：256M–1G–10G
但是如果MapReduce Input类型为TableInputFormat 使用hbase作为输入的时候，就要注意了，每个region一个map，如果数据小于10G 那只会启用一个map 造成集群很大的资源没有利用，这时候可以考虑适当调小该参数的值，或者采用预分配region的方式，并将检测如果达到这个值，再手动分配region。

压缩算法

COMPRESSION 默认值是NONE 即不使用压缩
这个参数意思是该列族是否采用压缩，采用什么压缩算法
使用方法: create ‘table’,{NAME=>‘info’,COMPRESSION=>‘SNAPPY’}
建议采用SNAPPY压缩算法。
如果建表之初没有压缩，后来想要加入压缩算法，可以通过alter修改schema

alter

使用方法：
如修改压缩算法

  disable 'table'
  alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} 
  enable 'table'

但是需要执行major_compact ‘table’ 命令之后才会做实际的操作。

describe ‘table’

describe ‘table’ 这个命令查看了create table 的各项参数或者是默认值。