HBase基础

最新推荐文章于 2024-10-10 11:10:29 发布

原创最新推荐文章于 2024-10-10 11:10:29 发布 · 269 阅读

CC 4.0 BY-SA版权

本文详细介绍了HBase的基础知识，包括其与Hadoop的关系、与关系型数据库的对比，以及其特点。此外，还阐述了HBase的架构，如HMaster和RegionServer的功能，并详细描述了集群环境的搭建过程，包括Zookeeper和HBase的配置及启动。最后，文章提到了HBase的常用shell操作，帮助读者更好地理解和操作HBase。

一、基本介绍

1、简介

是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写Nosql的数据库
Nosql数据库：非关系型数据库
关系型数据库：分为行存储和列存储，可相互转化
HBase来源于Google思想 gfs mapreduce bigtable==>hbase
仅支持一些简单的事务
mysql:select *from biao; insert into biao values(zi);
HBase与hdfs是紧耦合关系
实时读写数据库：
hive比较适合离线的处理
hbase:实时读取 1mb=>1gb=>1tb=>1pb在几十或者几百毫秒就可以返回数据
rowkey 行键
主要用于存储结构化和半结构化的松散数据
查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
支持的数据类型：byte[]
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

2、特点

大：一个表可以有上十亿行，上百万列
面向列:面向列(族)的存储和权限控制，列(族)独立检索。
稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

3、发展历程

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。
官方网站：http://hbase.apache.org

2006年Google发表BigTable白皮书
2006年开始开发HBase
2008 HBase成为了 Hadoop的子项目
2010年HBase成为Apache顶级项目

二、HBase与Hadoop的关系

1、hadoop ==> hdfs

分布式文件存储系统
适合一次写入多次读取
hdfs不是随机读取
直接使用文件
数据模型不灵活
使用文件系统和处理框架

2、HBase

面向列的数据存储,存储在hdfs上
适合多次频繁的写入和读取
可以随机读取某一条数据
使用表状存储，支持MapReduce，依赖HDFS
提供灵活的数据模型
使用key-value操作数据

三、RDBMS与HBase的对比

1、关系型数据库

mysql oracle db2 sqlserver

1）结构

以表的形式存在
适合存储结构化数据
支持FAT、NTFS、EXT、文件系统

使用Commit log存储日志
参考系统是坐标系统
使用主键（PK）
支持分区
使用行、列、单元格

2）功能

支持向上扩展
支持SQL面向列的查询
面向行，即每一行都是一个连续单元
数据总量依赖于服务器配置
具有ACID支持
适合存储结构化数据结构
传统关系型数据库一般都是中心化的
支持事务
支持Join

2、HBase

1）结构

数据库以region(区域)的形式存在,一张表在逻辑上划分为一个region或者是多个region进行管理
支持HDFS文件系统
使用WAL（Write-Ahead Logs）存储日志
参考系统是Zookeeper
使用行键（row key）
支持分片
使用行、列、列族和单元格
和zookeeper是紧耦合关系

2）功能

支持向外扩展
使用API和MapReduce来访问HBase表数据
面向列，即每一列都是一个连续的单元
数据总量不依赖具体某台机器，而取决于机器数量
HBase不支持ACID（Atomicity、Consistency、Isolation、Durability）
适合结构化数据和非结构化数据
一般都是分布式的
HBase不支持事务
不支持Join

四、特征

1、海量存储

Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。

2、列式存储

这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。
列族(列簇): user: info:name,age,address

3、极易扩展

Hbase的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。
通过横向添加RegionSever的机器，进行水平扩展，提升Hbase上层的处理能力，提升Hbsae服务更多Region的能力。
注： RegionServer的作用是管理region、承接业务的访问，这个后面会详细的介绍通过横向添加Datanode的机器，进行存储层扩容，提升Hbase的数据存储能力和提升后端存储的读写能力。

4、高并发

由于目前大部分使用Hbase的架构，都是采用的廉价PC，因此单个IO的延迟其实并不小，一般在几十到上百ms之间。这里说的高并发，主要是在并发的情况下，Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。

5、稀疏

稀疏主要是针对Hbase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。

五、基础架构

在这里插入图片描述

1、HMaster

1)功能

监控RegionServer
处理RegionServer故障转移
处理元数据的变更
+处理region的分配或移除
在空闲时间进行数据的负载均衡
通过Zookeeper发布自己的位置给客户端

2、RegionServer

1）功能

负责存储HBase的实际数据
处理分配给它的Region
刷新缓存到HDFS
维护HLog
执行压缩
负责处理Region分片

2）组件

① Write-Ahead logs

HBase的修改记录，当对HBase读写数据的时候，数据不是直接写进磁盘，它会在内存中保留一段时间（时间以及数据量阈值可以设定）。但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile的文件中，然后再写入内存中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

② HFile

这是在磁盘上保存原始数据的实际的物理文件，是实际的存储文件。

③ Store

HFile存储在Store中，一个Store对应HBase表中的一个列族。

④ MemStore

顾名思义，就是内存存储，位于内存中，用来保存当前的数据操作，所以当数据保存在WAL中之后，RegsionServer会在内存中存储键值对。

⑤ Region

Hbase表的分片，HBase表会根据RowKey值被切分成不同的region存储在RegionServer中，在一个RegionServer中可以有多个不同的region。

六、集群环境搭建

注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行

1、zookeeper的介绍以及集群环境搭建

1）概述

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中
应用系统的一致性问题，本质上是一个分布式的小文件存储系统。提供基于类似于文件系
统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维
护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达
到基于数据的集群管理。诸如：统一命名服务(dubbo)、分布式配置管理(solr的配置集中管理)、分布式消息队列（sub/pub）、分布式锁、分布式协调等功能。

2）特性

① 全局数据一致

每个 server 保存一份相同的数据副本， client 无论连
接到哪个 server，展示的数据都是一致的，这是最重要的特征；

② 可靠性

如果消息被其中一台服务器接受，那么将被所有的服务器接受。

③ 顺序性

包括全局有序和偏序两种：全局有序是指如果在一台服务器上
消息 a 在消息 b 前发布，则在所有 Server 上消息 a 都将在消息 b 前被
发布；偏序是指如果一个消息 b 在消息 a 后被同一个发送者发布， a 必
将排在 b 前面。

④ 数据更新原子性

一次数据更新要么成功（半数以上节点成功），要么失
败，不存在中间状态；

⑤ 实时性

Zookeeper 保证客户端将在一个时间间隔范围内获得服务器的
更新信息，或者服务器失效的信息。

3）环境搭建

① 下载压缩包

** 网址： ** http://archive.apache.org/dist/zookeeper/
上传至/home/hadoop/apps路径（自行选择）

② 解压

[root@node01 ~]# cd /home/hadoop/apps
[root@node01 apps]# rz
[root@node01 apps]# tar -zxvf zookeeper-3.4.10.tar.gz

③ 修改配置文件

[root@node01 apps]# cd zookeeper-3.4.10/conf/
[root@node01 conf]# cp zoo_sample.cfg zoo.cfg
[root@node01 conf]# mkdir -p /home/hadoop/apps/zookeeper-3.4.10/zkdatas/
[root@node01 conf]# vim zoo.cfg

内容：
dataDir=/home/hadoop/apps/zookeeper-3.4.10/zkdatas/
autopurge.snapRetainCount=3
autopurge.purgeInterval=1
server.1=node01:2888:3888
server.2=node02:2888:3888
server.3=node03:2888:3888
图示：
在这里插入图片描述

④ 添加myid配置

[root@node01 conf]# cd /home/hadoop/apps/zookeeper-3.4.10/zkdatas/
[root@node01 zkdatas]# echo 1 > myid
[root@node01 zkdatas]# more myid
1

⑤ 安装包分发并修改myid的值

[root@node01 zkdatas]# scp -r /home/hadoop/apps/zookeeper-3.4.10/ node02:/home/hadoop/apps/
[root@node01 zkdatas]# scp -r /home/hadoop/apps/zookeeper-3.4.10/ node03:/home/hadoop/apps/

[root@node02 apps]# echo 2 > /home/hadoop/apps/zookeeper-3.4.10/zkdatas/myid
[root@node02 apps]# more /home/hadoop/apps/zookeeper-3.4.10/zkdatas/myid
2

[root@node03 apps]# echo 3 > /home/hadoop/apps/zookeeper-3.4.10/zkdatas/myid
[root@node03 apps]# more /home/hadoop/apps/zookeeper-3.4.10/zkdatas/myid
3

⑥ 三台机器启动zookeeper服务

三台机器都执行：

[root@node01 apps]# /home/hadoop/apps/zookeeper-3.4.10/bin/zkServer.sh start
[root@node01 apps]# /home/hadoop/apps/zookeeper-3.4.10/bin/zkServer.sh status

图示：（出现红框中内容则成功）
在这里插入图片描述

2、HBase环境搭建

① 下载安装包

关于CDH版本的软件包下载地址：
http://archive.cloudera.com/cdh5/cdh/5/
HBase对应的版本下载地址：
http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz

② 上传并解压

[root@node01 ~]# cd /home/hadoop/apps
[root@node01 apps]# rz
[root@node01 apps]# tar -zxvf hbase-1.3.1.bin.tar.gz

③ 修改配置文件

[root@node01 apps]# cd hbase-1.3.1/conf
[root@node01 conf]# vim hbase-env.sh

#修改如下两句
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_181
export HBASE_MANAGES_ZK=false

图示：
在这里插入图片描述

[root@node01 conf]# vim hbase-site.xml

#添加如下内容：
<configuration>
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://node01:8020/hbase</value>  
        </property>

        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>

   <!-- 0.98后的新变动，之前版本没有.port,默认端口为60000 -->
        <property>
                <name>hbase.master.port</name>
                <value>16000</value>
        </property>

        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>node01:2181,node02:2181,node03:2181</value>
        </property>

        <property>
                <name>hbase.zookeeper.property.dataDir</name>
         <value>/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas</value>
        </property>
</configuration>

图示：
在这里插入图片描述

[root@node01 conf]# vim regionservers

图示：
在这里插入图片描述

#实现高可用
[root@node01 conf]# vim backup-masters

图示：
在这里插入图片描述

④ 安装包分发到其他机器

[root@node01 conf]# cd /home/hadoop/apps/
[root@node01 apps]# scp -r hbase-1.3.1/ node02:$PWD
[root@node01 apps]# scp -r hbase-1.3.1/ node03:$PWD

⑤ 三台机器创建软连接

原因： hbase需要读取hadoop的core-site.xml以及hdfs-site.xml当中的配置文件信息

[root@node01 apps]# ln -s /home/hadoop/apps/hadoop-2.8.0/etc/hadoop/core-site.xml /home/hadoop/apps/hbase-1.3.1/conf/core-site.xml
[root@node01 apps]# ln -s /home/hadoop/apps/hadoop-2.8.0/etc/hadoop/hdfs-site.xml /home/hadoop/apps/hbase-1.3.1/conf/hdfs-site.xml

⑥ 三台机器添加HBASE_HOME的环境变量

[root@node01 apps]# vim /etc/profile
[root@node02 apps]# vim /etc/profile
[root@node03 apps]# vim /etc/profile

#添加内容：
export HBASE_HOME=/home/hadoop/apps/hbase-1.3.1
export PATH=:$HBASE_HOME/bin:$PATH

图示：
在这里插入图片描述

⑦ 集群启动

[root@node01 conf]# cd /home/hadoop/apps/hbase-1.3.1/
[root@node01 hbase-1.3.1]# bin/start-hbase.shbin

警告提示： HBase启动的时候会产生一个警告，这是因为jdk7与jdk8的问题导致的，如果linux服务器安装jdk8就会产生这样的一个警告
在这里插入图片描述
我们可以只是掉所有机器的hbase-env.sh当中的
“HBASE_MASTER_OPTS”和“HBASE_REGIONSERVER_OPTS”配置来解决这个问题。不过警告不影响我们正常运行，可以不用解决

我们也可以执行以下命令单节点进行启动

#启动HMaster命令
[root@node01 hbase-1.3.1]# bin/hbase-daemon.sh start master
#启动HRegionServer命令
[root@node01 hbase-1.3.1]# bin/hbase-daemon.sh start regionserver

为了解决HMaster单点故障问题，我们可以在node02和node03机器上面都可以启动HMaster节点的进程，以实现HMaster的高可用

[root@node02 hbase-1.3.1]# bin/hbase-daemon.sh start master
[root@node03 hbase-1.3.1]# bin/hbase-daemon.sh start master

⑧ 页面访问

浏览器页面访问：http://node01:60010/master-status

七、HBase常用shell操作

1、

#进入HBase客户端命令操作界面
[root@node01 hbase-1.3.1]# bin/hbase shell
#查看帮助命令
hbase(main):001:0> help
#查看当前数据库中有哪些表
hbase(main):002:0> list

2、创建表

#创建user表，包含info、data两个列族
hbase(main):003:0> create 'user', 'info', 'data'
#或者
hbase(main):004:0> create 'user', {NAME => 'info', VERSIONS => '3'}，{NAME => 'data'}

3、添加数据

#向user表中插入信息，row key为rk0001，列族info中添加name列标示符，值为zhangsan
hbase(main):005:0> put 'user', 'rk0001', 'info:name', 'zhangsan'

#向user表中插入信息，row key为rk0001，列族info中添加gender列标示符，值为female
hbase(main):006:0> put 'user', 'rk0001', 'info:gender', 'female'

#向user表中插入信息，row key为rk0001，列族info中添加age列标示符，值为20
hbase(main):007:0> put 'user', 'rk0001', 'info:age', 20

#向user表中插入信息，row key为rk0001，列族data中添加pic列标示符，值为picture
hbase(main):008:0> put 'user', 'rk0001', 'data:pic', 'picture'

4、查询数据

1）通过rowkey进行查询

#获取user表中row key为rk0001的所有信息
hbase(main):015:0> get 'user', 'rk0001'

#查看rowkey下面的某个列族的信息
	#获取user表中row key为rk0001，info列族的所有信息
hbase(main):016:0> get 'user', 'rk0001', 'info'

#查看rowkey指定列族指定字段的值
	#获取user表中row key为rk0001，info列族的name、age列标示符的信息
hbase(main):017:0> get 'user', 'rk0001', 'info:name', 'info:age'

#查看rowkey指定多个列族的信息
	#获取user表中row key为rk0001，info、data列族的信息
hbase(main):018:0> get 'user', 'rk0001', 'info', 'data'
	#或者
hbase(main):019:0> get 'user', 'rk0001', {COLUMN => ['info', 'data']}
	#或者
hbase(main):020:0> get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}

#指定rowkey与列值查询
	#获取user表中row key为rk0001，cell的值为zhangsan的信息
hbase(main):030:0> get 'user', 'rk0001', {FILTER => "ValueFilter(=, 'binary:lisi)"}

#指定rowkey与列值模糊查询
	#获取user表中row key为rk0001，列标示符中含有a的信息
hbase(main):031:0> get 'user', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}

#继续插入一批数据
hbase(main):032:0> put 'user', 'rk0002', 'info:name', 'fanbingbing'
hbase(main):033:0> put 'user', 'rk0002', 'info:gender', 'female'
hbase(main):034:0> put 'user', 'rk0002', 'info:nationality', '中国'
hbase(main):035:0> get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:中国')"}

2）查询所有数据

查询user表中的所有信息
hbase(main):036:0> scan 'user'

3）列族查询

#查询user表中列族为info的信息
hbase(main):037:0> scan 'user', {COLUMNS => 'info'}
hbase(main):038:0> scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}
hbase(main):039:0> scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 3}

#多列族查询
	#查询user表中列族为info和data的信息
hbase(main):040:0> scan 'user', {COLUMNS => ['info', 'data']}
hbase(main):041:0> scan 'user', {COLUMNS => ['info:name', 'data:pic']}

#指定列族与某个列名查询
	#查询user表中列族为info、列标示符为name的信息
hbase(main):042:0> scan 'user', {COLUMNS => 'info:name'}

#指定列族与列名以及限定版本查询
	#查询user表中列族为info、列标示符为name的信息,并且版本最新的5个
hbase(main):043:0> scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}

#指定多个列族与按照数据值模糊查询
	#查询user表中列族为info和data且列标示符中含有a字符的信息
hbase(main):044:0> scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}

4）rowkey的范围值查询

#查询user表中列族为info，rk范围是[rk0001, rk0003)的数据
hbase(main):045:0> scan 'user', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

13、指定rowkey模糊查询

#查询user表中row key以rk字符开头的
hbase(main):046:0> scan 'user',{FILTER=>"PrefixFilter('rk')"}

14、指定数据范围值查询

#查询user表中指定范围的数据
hbase(main):047:0> scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}

5、更新数据

1）更新数据值

更新操作同插入操作一模一样，只不过有数据就更新，没数据就添加

2）更新版本号

将user表的f1列族版本号改为5
hbase(main):048:0> alter 'user', NAME => 'info', VERSIONS => 5

6、删除数据、表

#指定rowkey以及列名进行删除
	#删除user表row key为rk0001，列标示符为info:name的数据
hbase(main):049:0> delete 'user', 'rk0001', 'info:name'

#指定rowkey，列名以及字段值进行删除
	#删除user表row key为rk0001，列标示符为info:name，timestamp为1392383705316的数据
hbase(main):050:0> delete 'user', 'rk0001', 'info:name', 1392383705316

#删除一个列族
hbase(main):051:0> alter 'user', NAME => 'info', METHOD => 'delete' 
#或
hbase(main):052:0> alter 'user', 'delete' => 'info'

#清空表数据
hbase(main):053:0> truncate 'user'

#删除表
	#首先让该表为disable状态
hbase(main):054:0> disable 'user'
	#然后drop这个表
hbase(main):055:0> drop 'user'
#注意：如果直接drop表，会报错：Drop the named table. Table must first be disabled

7、统计一张表有多少行数据

hbase(main):056:0> count 'user'

八、HBase的高级shell管理命令

status						#显示服务器状态
whoami						#显示HBase当前用户
list						#显示当前所有的表
count						#统计指定表的记录数
describe					#展示表结构信息
exists						#检查表是否存在，适用于表量特别多的情况
is_enabled、is_disabled		#检查表是否启用或禁用
disable/enable				#禁用一张表/启用一张表
drop						#删除一张表，记得在删除表之前必须先禁用
trunca						#禁用表-删除表-创建表
alter						#改变表和列族的模式
#为当前表增加列族：
hbase(main):001:0> alter 'user', NAME => 'CF2', VERSIONS => 2
#为当前表删除列族：
hbase(main):002:0>  alter 'user', 'delete' => 'CF2'