05.Apache Hbase介绍和使用

最新推荐文章于 2024-06-26 13:07:35 发布

时空鱼

最新推荐文章于 2024-06-26 13:07:35 发布

阅读量2.1k

点赞数 4

分类专栏：大数据辅助组件文章标签： hbase

本文链接：https://blog.youkuaiyun.com/qq_43742212/article/details/103532802

版权

大数据辅助组件专栏收录该内容

7 篇文章

订阅专栏

hbase 的安装部署
1、软件包上传解压
2、配置hbase.env.sh
配置java_home
使用外部zookeeper(自己独立安装的zookeeper)
3、配置 hbase-site.xml
见讲义
hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径
4、修改regionservers
5、创建backup-masters
6、拷贝core-site.xml hdfs-site.xml到hbase的conf目录下
7、安装包分发到所有节点
8、配置环境变量
9、启动hbase
前提：1
hadoop集群必须启动，并保证集群正常
zookeeper集群必须启动，并保证集群正常
启动hbase
在这里插入图片描述
HBase的基本介绍
Hbase 是建立在hdfs之上的一个数据库，不支持join等SQL复杂操作.支持的数据类型：byte[]，依靠横向扩展
一个表可以有上十亿行，上百万列。
面向列(族)的存储和权限控制
对于为空(null)的列，并不占用存储空间，是一个稀疏表。
稀疏的理解
在这里插入图片描述
HBASE的适用场景
海量数据、精确查询、快速返回
海量数据：指的是数据量的背景
精确查询：业务场景
快速返回：是业务对时效性的要求

Hbase和Hadoop之间的关系

HDFS
海量数据存储，适合一次性扫描大量数据。
适合一次写入多次读取
不适合频繁更新的数据
HBASE
不适合一次性扫描大量数据。适用一次扫描少量数据。
适合多次写入多次读取
habse
支持数据更新
支持删除数据
Hbase与RDBMS的关系
RDBMS
支持SQL查询
支持事务
支持Join
HBASE
不支持SQL查询
不支持事务
不支持Join
Hbase特征简要说明
1、海量存储
Hbase适合存储PB级别的海量数据，在几十到百毫秒内返回数据。
2、列式存储
这里的列式存储其实说的是列族存储
列族理论上可以很多，但实际上建议不要超过6个
3、极易扩展
处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）
hbase在最初设计的时候就考虑了扩展性。
4、高并发
这里说的高并发，主要是在并发的情况下，Hbase的单个IO延迟下降并不多
5、稀疏
在列数据为空的情况下，是不会占用存储空间的。
hbase的基础架构
1、Client
2 ZOOKEEPER
3 Master 管理者
4 Regionserver 工作者
在这里插入图片描述

HBase常用shell操作

HBase的底层原理
详细架构
Client：
访问数据的入口，包含访问hbase的API接口,维护着一些cache来加快对hbase的访问
Zookeeper：
1 zookeeper的选举机制保证任何时候，集群中只有一个master
2 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master
3 存储Hbase的schema,
4 存贮所有Region的寻址入口
Master职责
1 为Region server分配region
2 负责region server的负载均衡
3 发现失效的region server并重新分配其上的region
4 处理schema更新请求
说明：Hmaster短时间下线，hbase集群依然可用，长时间不行。
Region server的作用
1、 Region server维护Master分配给它的region，处理对这些region的IO请求
2、Region server负责切分在运行过程中变得过大的region

HBase的表数据模型

在这里插入图片描述
Row Key
最大长度是 64KB，完全可以自行设计。Hbase会对表中的数据按照rowkey排序（字典序）
row的设计是最有技术含量的工作
列族Column Family
列族是表的schema的一部分，而列不是。（schema包含表名和列族）
每个列都所属于某一个列族。一个列族可以包含多个列。一个列族与列的关系是一对多。
列 Column
列族下面的具体列。
时间戳
标记一个数据的不同版本
时间戳可以由hbase(在数据写入时自动 )赋值，hbase支持工程师自己定义时间戳。
每个 cell中，不同版本的数据按照时间倒序排序
在这里插入图片描述
hbase本身提供数据回收机制
1、保存数据的最后n个版本
2、保存最近一段时间内的版本
Cell存储数据的最小单位
如何确定一个精确的数据
由{row key, column( = + ), version} 唯一确定的单元
VersionNum
数据的版本号，默认值为系统时间戳。
hbase物理存储
整体结构
在这里插入图片描述
一个regionserver内部可以有多个region,这多个region可能来自多个表或一个表。一个region只能属于一个
regionserver.
rtegion的切分
region按大小分割的(默认10G)。每个表一开始只有一个region，随着数据的增加，一个region逐渐变大，达到
10G，进行分裂，等分成两个region.
Hregion是Hbase中分布式存储和负载均衡的最小单元
HRegion由一个或者多个Store组成，每个store保存一个column family。每个Strore又由一个memStore和0至多个
StoreFile组成
在这里插入图片描述

Memstore与storefile
一个region由多个store组成，每个store包含一个列族的所有数据 Store包括位于内存的memstore和位于硬盘的
storefile
客户端检索数据时，先在memstore找，找不到再找storefile
HLog(WAL log)
每个Region Server维护一个Hlog,而不是每个Region一个.
Hlog的切分机制
1、当数据写入hlog以后，hbase发生异常。关闭当前的hlog文件
2、当日志的大小达到HDFS数据块的0.95倍的时候，关闭当前日志，生成新的日志
3、每隔一小时生成一个新的日志文件

读写过程

读请求过程
前提：什么是meta表？
meta表述hbase系统自带的一个表。里面存储了hbase用户表的元信息。
元信息为：meta表内记录一行数据是用户表一个region的start key 到endkey的范围。
meta表存在什么地方？
meta表存储在regionserver里。具体存储在哪个regionserver里？zookeeper知道。
在这里插入图片描述

1 到zookeeper询问meta表在哪
2 到meta所在的节点（regionserver）读取meta表的数据
3 找到region 获取region和regionserver的对应关系，直接到regionserver读取region数据