文章目录
HBase概述
引言
HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。
HBase主要用来储存非结构化和半结构化的松散数据
特点
- 大:一个表可以有上亿行,上百万列
- 面向列:面向列(簇)的存储和权限控制,列(簇)独立检索
- 稀疏:对于空(null)的列,并不占用存储空间
- 数据多版本:每个单元中的数据可以有多个版本,默认情况下,版本号自动分配(时间戳)
- 数据类型单一:HBase中的数据都是字符串、没有类型。
HBase和关系数据库区别
数据库类型:HBase只有字符串类型(string)
数据操作:HBase只有普通的CRUD,没有表的关联查询
存储模式:HBase是基于列式存储模式,而RDBMS是基于行式存储的
应用场景:HBase适合存储大量数据,查询效率极高
使用场景
- 抓取增量数据
抓取来自各种数据源的增量数据
- 内容服务
各种各样的终端设备带来了另一个挑战:不同的设备需要以不同的格式使用同样的内容。
- 信息交换
数亿人通过社交网络进行对话,人们还想看看其他人对话的历史记录。让社交网络感到幸运的是,保存这些历史记录很廉价,大数据领域的创新可以帮助他们充分利用廉价的存储。
CAP理论
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。
一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)。
可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)。
分区容忍性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。
AP原则的精髓就是要么AP,要么CP,要么AC,但是不存在CAP。如果在某个分布式系统中数据无副本, 那么系统必然满足强一致性条件, 因为只有独一数据,不会出现数据不一致的情况,此时C和P两要素具备,但是如果系统发生了网络分区状况或者宕机,必然导致某些数据不可以访问,此时可用性条件就不能被满足,即在此情况下获得了CP系统,但是CAP不可同时满足
HBase架构图
HBase数据结构
- 行键(RowKey)
用来检索记录的主键。
注意:RowKey可以是任意字符串(最大长度是64KB)。数据按照RowKey的字典顺序排序存储。设计RowKey时要充分考虑排序存储的特性,将经常一起读取的行存储放到一起(位置相关性)。
- 列簇(Column Family)
其实就是列的集合,HBase表中的每个列,都归属于某个列簇。
列簇是表的Schema的一部分(而列不是),必须在使用表之前定义。列名都以列簇作为前缀。
- 记录(Cell)
由rowkey、colume Family:column(值)、version组成的唯一的单元。
注意:cell中的数据是没有类型的,全部是字节码形式存储。
- 时间戳(TimeStamps)
HBase中通过rowkey和columns确定的为一个存储单元成为cell。时间戳可以由HBase在数据写入时自动赋值,也可以由客户显示赋值,不同版本的数据安装时间顺序倒序排序,即最新的数据排在最前面。
HBase安装&配置
1. 运行环境
- HDFS
- zookeeper
2. 安装和配置
- 配置环境变量
export HBASE_HOME=/home/hbase/hbase-1.2.4
export HBASE_MANAGES_ZK=false # 使用外部ZK,禁用自带的ZK
export PATH=$PATH:$HBASE_HOME/bin
- 修改配置文件
hbase-site.xml
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://192.168.160.10:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>localhost</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
</configuration>
3. 启动
[root@HadoopNode00 ~]# start-dfs.sh # 首先保证hdfs启动
[root@HadoopNode00 ~]# /home/zk/zookeeper-3.4.6/bin/zkServer.sh start /home/zk/zookeeper-3.4.6/conf/zk.cfg # 首先保证zk启动
[root@HadoopNode00 ~]# start-hbase.sh # 直接通过指令启动
41708 HRegionServer # 健康存活
41548 HMaster # 健康存活
4. Web UI
http://your.host.name:16010
5. shell操作
命名空间:
创建:create_namespace ‘ace’,{‘user’=> ‘guojianhua’}
描述:describe_namespace ‘ace’
修改:alter_namespace ‘ace’,{‘user’=> ‘ACE’}
删除:drop_namespace ‘ace’
删除属性:alter_namespace ‘ace’,{METHOD => ‘unset’,NAME => ‘user’}
查所有:list_namespace
显示命名空间下的表:list_namespace_tables ‘ace’
表操作:
创建:create ‘ace:t_user’, ‘cf1’,’cf2’
查看详情:describe ‘ace:t_user’
删除:disable ‘ace:t_user’; drop ‘ace:t_user’
显示所有表list
记录操作:
插入:put ‘ace:t_user’,1,’cf1:name’,’zs’
# 插入一条数据 在ace:t_user 行健为1 列簇cf1 字段名为name 值为zs
t = get_table ‘ace:t_user’ # 做表的引用
t.put 1,’cf1:sex’,’true’
更新:t.put 1,'cf1:name','zhangsan'
查询:t.get 1
# 获取所有rowkey 为1 列簇为cf1 列名为name 最多获取三个版本的数据
hbase(main):017:0> t.get 1 ,{COLUMNS=>'cf1:name',VERSIONS=>3}
# 根据某个时间戳进行获取
hbase(main):020:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMESTAMP => 1572888590148}
# 根据时间戳区间进行获取
hbase(main):024:0> t.get 1 ,{COLUMNS=>'cf1:name',TIMERANGE => [157288850147,1572888630030],VERSIONS => 4}
删除:
# 直接进行删除
hbase(main):025:0> delete 'ace:t_user',1,'cf1:name'
# 引用删除
hbase(main):027:0> t.delete 1,'cf1:sex'
# 删除某个id下的所有数据
hbase(main):029:0> t.deleteall 1
# 删除某个id某个列簇某个字段所有版本的值
hbase(main):043:0> t.deleteall 1 ,'cf1:name'
0 row(s) in 0.0150 seconds
全表扫描:t.scan
计数:t.count
追加:t.append 1,’cf1:name’,’123’
清空:truncate ‘ace:t_user’
6. Java API
- 依赖
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>1.2.4</version>
</dependency>
- 获取客户端/关闭资源
private Connection connection;
private Admin admin;
@Before
public void getAdmin() throws Exception {
Configuration conf = new Configuration();
conf.set("hbase.zookeeper.quorum", "192.168.100.1");
conf.set("hbase.zookeeper.property.clientPort", "2181");
connection = ConnectionFactory.createConnection(conf);
admin = connection.getAdmin();
}
@After
public void close() throws Exception {
admin.close();
connection.close();
}
- 命名空间操作
@Test
public void changeNameSpace() throws Exception{
NamespaceDescriptor namespaceDescriptor = NamespaceDescriptor.create("hadoop").removeConfiguration("baizhi").build();
admin.modifyNamespace(namespaceDescriptor);
}
@Test
public void deleteNameSpace() throws Exception{
admin.deleteNamespace("hadoop");
}
@Test
public void listNameSpace() throws Exception {
NamespaceDescriptor[] namespaceDescriptors = admin.listNamespaceDescriptors();
for (NamespaceDescriptor namespaceDescriptor : namespaceDescriptors) {
System.out.println(namespaceDescriptor.getName());
}
}
- 表操作
@Test
public void createTable() throws Exception {
/*
* 将表的名字信息封装到TableName中
* */
TableName tableName = TableName.valueOf("baizhi:t_java");
/*
*
* 创建描述表的对象 并提供表的名字
* */
HTableDescriptor tableDescriptor = new HTableDescriptor(tableName);
/*
* 描述列簇的对象 并指定列簇的名字
* */
HColumnDescriptor cf1 = new HColumnDescriptor("cf1");
// 设置 最大可存的版本
cf1.setMaxVersions(3);
/*
* 描述列簇的对象 并指定列簇的名字
* */
HColumnDescriptor cf2 = new HColumnDescriptor("cf2");
// 设置 最大可存的版本
cf2.setMaxVersions(3);
// 在表中添加必要的属性:列簇
tableDescriptor.addFamily(cf1);
tableDescriptor.addFamily(cf2);
/*
* 使用admin对象创建表
* */
admin.createTable(tableDescriptor);
}
@Test
public void deleteTable() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_java");
if (admin.tableExists(tableName)) {
admin.disableTable(tableName);
admin.deleteTable(tableName);
}
}
- 记录操作
put
@Test
public void putData() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_user");
Table table = connection.getTable(tableName);
/*
* 封装 一行 数据
* */
Put put = new Put("1".getBytes());
/*
* 参数列表 : 列簇 列名 值
* */
put.addColumn("cf1".getBytes(), "name".getBytes(), "zhangsan".getBytes());
put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
put.addColumn("cf2".getBytes(), "age".getBytes(), "18".getBytes());
put.addColumn("cf2".getBytes(), "salary".getBytes(), "1000".getBytes());
table.put(put);
table.close();
}
批量插入
@Test
public void putManyData() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_user");
Table table = connection.getTable(tableName);
/*
* 封装 一行 数据
* */
Put put = new Put("2".getBytes());
/*
* 参数列表 : 列簇 列名 值
* */
put.addColumn("cf1".getBytes(), "name".getBytes(), "lisi".getBytes());
put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());
ArrayList<Put> puts = new ArrayList<Put>();
puts.add(put);
table.put(puts);
table.close();
}
@Test
public void putManyData() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_user");
BufferedMutator bufferedMutator = connection.getBufferedMutator(tableName);
/*
* 封装 一行 数据
* */
Put put = new Put("2".getBytes());
/*
* 参数列表 : 列簇 列名 值
* */
put.addColumn("cf1".getBytes(), "name".getBytes(), "ls".getBytes());
put.addColumn("cf1".getBytes(), "pwd".getBytes(), "123".getBytes());
put.addColumn("cf2".getBytes(), "age".getBytes(), "20".getBytes());
put.addColumn("cf2".getBytes(), "salary".getBytes(), "20000".getBytes());
ArrayList<Put> puts = new ArrayList<Put>();
puts.add(put);
bufferedMutator.mutate(puts);
bufferedMutator.close();
}
delete
@Test
public void deleteData() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_user");
Table table = connection.getTable(tableName);
Delete delete = new Delete("2".getBytes());
table.delete(delete);
table.close();
}
批量删除
@Test
public void deleteManyData() throws Exception {
TableName tableName = TableName.valueOf("baizhi:t_user");
Table table = connection.getTable(tableName);
Delete delete = new Delete("1".getBytes());
table.delete(delete);
table.close();
}
get
@Test
public void getData() throws Exception{
Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));
Get get = new Get("2".getBytes());
Result result = table.get(get);
/*
* 列簇 列名
* */
byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());
System.out.println("名字为:"+Bytes.toString(name)+", 密码为:"+Bytes.toString(pwd)+",年龄为:"+Bytes.toString(age)+",工资为:"+Bytes.toString(salary));
}
获取多个版本的数据
@Test
public void getManyData() throws Exception {
Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));
Get get = new Get("2".getBytes());
get.setMaxVersions(3);
get.addColumn("cf1".getBytes(), "name".getBytes());
Result result = table.get(get);
List<Cell> columnCells = result.getColumnCells("cf1".getBytes(), "name".getBytes());
for (Cell columnCell : columnCells) {
byte[] rowData = CellUtil.cloneRow(columnCell);
byte[] cfData = CellUtil.cloneFamily(columnCell);
byte[] qualifierData = CellUtil.cloneQualifier(columnCell);
byte[] data = CellUtil.cloneValue(columnCell);
System.out.println("行健为:" + Bytes.toString(rowData) + ", 列簇为:" + Bytes.toString(cfData) + ",列名为:" + Bytes.toString(qualifierData) + ",名字为:" + Bytes.toString(data));
}
}
scan
@Test
public void scanData() throws Exception {
Table table = connection.getTable(TableName.valueOf("baizhi:t_user"));
Scan scan = new Scan();
// scan.addFamily("cf1".getBytes());
//scan.addColumn("cf1".getBytes(),"name".getBytes());
PrefixFilter prefixFilter1 = new PrefixFilter("1".getBytes());
PrefixFilter prefixFilter2 = new PrefixFilter("2".getBytes());
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE, prefixFilter1, prefixFilter2);
scan.setFilter(filterList);
ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
System.out.println("------------------");
byte[] name = result.getValue("cf1".getBytes(), "name".getBytes());
byte[] pwd = result.getValue("cf1".getBytes(), "pwd".getBytes());
byte[] age = result.getValue("cf2".getBytes(), "age".getBytes());
byte[] salary = result.getValue("cf2".getBytes(), "salary".getBytes());
System.out.println("名字为:" + Bytes.toString(name) + ", 密码为:" + Bytes.toString(pwd) + ",年龄为:" + Bytes.toString(age) + ",工资为:" + Bytes.toString(salary));
}
scanner.close();
table.close();
}