HBase安装

最新推荐文章于 2022-05-19 22:55:54 发布

最新推荐文章于 2022-05-19 22:55:54 发布 · 79 阅读

文章标签：

#大数据 #shell #数据库

本文深入探讨了HBase数据库的结构、安装过程及基本操作，包括表结构、安装步骤、创建表、插入数据、查询数据、删除数据、统计行数和使用hbaseshell脚本等操作。

（一）简介：

HBase是一个分布式的、面向列的开源数据库。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。

表结构：

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。

Row Key	column-family1		column-family2			column-family3
Row Key	column1	column2	column1	column2	column3	column1
key1
key2
key3

如上图所示，key1、key2、key3是三条记录的唯一的row key值，column-family1、column-family2、column-family3是三个列族，每个列族下又包括几列，比如column-family1这个列族下包括两列，名字是column1和column2。t1:ab ,t2:dx是由row key1和column-family1—column1唯一确定的一个单元cell。这个cell中有两个数据，ab和dx。两个值的时间戳不一样，分别是t1,t2，hbase会返回最新时间的值给请求者。

名词定义：

1）Row Key
与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：

单个row key访问
通过row key的range
全表扫描

Row key可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。
存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，将经常一起读取的行存储放到一起。(位置相关性)

2）列族 column family
hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。
3）单元 Cell
HBase中通过row和columns确定的为一个存贮单元称为cell。由{row key, column( =<family> + <label>), version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存储。

4）时间戳 timestamp
每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。

（二）安装：

1. 下载安装包： http://www.apache.org/dyn/closer.cgi/hbase/，下载后缀为 .tar.gz 结尾的文件。本文测试的版本是 hbase-0.94.10.tar.gz

2.解压

[html]view plaincopyprint? 
    
 tarzxvfhbase-0.94.10.tar.gz 

3. 修改数据存储目录，编辑 conf/hbase-site.xml 配置hbase.rootdir

[html]view plaincopyprint? 
    
 <?xmlversion="1.0"?> 
 <?xml-stylesheettype="text/xsl"href="configuration.xsl"?> 
 <configuration> 
 <property> 
 <name>hbase.rootdir</name> 
 <value>存储目录</value> 
 </property> 
 </configuration> 

4. 启动Hbase

[html]view plaincopyprint? 
    
 ./bin/start-hbase.sh 

starting master, logging to /home/onlyone/software/hbase-0.94.10/bin/../logs/hbase-onlyone-master-ubuntu.out

所有的服务都运行在一个JVM上，包括Hbase和Zookeeper。Hbase的日志放在logs目录，当你启动出问题的时候，可以检查这个日志。
5. 用shell连接Hbase

[html]view plaincopyprint? 
    
 ./bin/hbaseshell 

（三）操作演示

有一学生成绩表

name	grade	course
name	grade	math	art
Tom	6	99	100
Yangli	15

这里grade对于表来说是一个只有它自己的列族，course对于表来说是一个有两个列的列族，这个列族由两个列组成math和art，当然我们可以根据需要在course中建立更多的列，如computer、physics等列添加入course列族。

1）建立一个表scores，有两个列族grade和course

[html]view plaincopyprint? 
    
 hbase(main):001:0>create'scores','grade','course' 

list命令来查看当前HBase里有哪些表

[html]view plaincopyprint? 
    
 hbase(main):002:0>list 
 TABLE 
 scores 
 test 
 2row(s)in0.1320seconds 

describe命令来查看表结构

[html]view plaincopyprint? 
    
 hbase(main):001:0>describe'scores' 
 DESCRIPTIONENABLED 
 'scores',{NAME=>'course',DATA_BLOCK_ENCODING=>'NONE',BLOOMFILTER=>true 
 'NONE',REPLICATION_SCOPE=>'0',VERSIONS=>'3',COMPRESSION=>'NONE', 
 MIN_VERSIONS=>'0',TTL=>'2147483647',KEEP_DELETED_CELLS=>'false', 
 BLOCKSIZE=>'65536',IN_MEMORY=>'false',ENCODE_ON_DISK=>'true',BLOC 
 KCACHE=>'true'},{NAME=>'grade',DATA_BLOCK_ENCODING=>'NONE',BLOOMF 
 ILTER=>'NONE',REPLICATION_SCOPE=>'0',VERSIONS=>'3',COMPRESSION=> 
 'NONE',MIN_VERSIONS=>'0',TTL=>'2147483647',KEEP_DELETED_CELLS=>' 
 false',BLOCKSIZE=>'65536',IN_MEMORY=>'false',ENCODE_ON_DISK=>'tru 
 e',BLOCKCACHE=>'true'} 
 1row(s)in0.7240seconds 

ps：记得所有的表名、列名都需要加上引号

2）插入值

[html]view plaincopyprint? 
    
 hbase(main):007:0>put'scores','Tom','grade','6' 
 0row(s)in0.0790seconds 
  
 hbase(main):008:0>put'scores','Tom','course:math','99' 
 0row(s)in0.0060seconds 
  
 hbase(main):009:0>put'scores','Tom','course:art','100' 
 0row(s)in0.0100seconds 
  
 ／／扫描表数据 
 hbase(main):010:0>scan'scores' 
 ROWCOLUMN+CELL 
 Tomcolumn=course:art,timestamp=1376493359159,value=100 
 Tomcolumn=course:math,timestamp=1376493340514,value=99 
 Tomcolumn=grade:,timestamp=1376493316800,value=6 
 1row(s)in0.0530seconds 

put命令比较简单：
hbase> put ‘t1′, ‘r1′, ‘c1′, ‘value'

t1指表名，r1指行键名，c1指列名，value指单元格值

3）根据键值查询数据

[html]view plaincopyprint? 
    
 hbase(main):012:0>get'scores','Tom' 
 COLUMNCELL 
 course:arttimestamp=1376493359159,value=100 
 course:mathtimestamp=1376493340514,value=99 
 grade:timestamp=1376493316800,value=6 
 3row(s)in0.0170seconds 
  
 hbase(main):013:0>get'scores','Tom','grade' 
 COLUMNCELL 
 grade:timestamp=1376493316800,value=6 
 1row(s)in0.0080seconds 
  
 hbase(main):014:0>get'scores','Tom','course:math' 
 COLUMNCELL 
 course:mathtimestamp=1376493340514,value=99 
 1row(s)in0.0250seconds 

4）删除指定数据

[html]view plaincopyprint? 
    
 hbase(main):016:0>delete'scores','Tom','grade' 
 0row(s)in0.1350seconds 
  
 hbase(main):017:0>scan'scores' 
 ROWCOLUMN+CELL 
 Tomcolumn=course:art,timestamp=1376493359159,value=100 
 Tomcolumn=course:math,timestamp=1376493340514,value=99 
 1row(s)in0.1380seconds 

5）统计行数：

[html]view plaincopyprint? 
    
 hbase(main):018:0>count'scores' 
 1row(s)in0.8500seconds 

6）hbase shell脚本
既然是shell命令，当然也可以把所有的hbase shell命令写入到一个文件内，象linux shell脚本那样顺序执行所有命令。如：

[html]view plaincopyprint? 
    
 shelltest.hbaseshell