《转载，亲测通过》hbase hive 数据表映射关联

最新推荐文章于 2022-11-03 20:12:57 发布

转载最新推荐文章于 2022-11-03 20:12:57 发布 · 922 阅读

hbase 同时被 2 个专栏收录

11 篇文章

订阅专栏

hive

2 篇文章

订阅专栏

本文介绍如何配置Hive与HBase的整合环境，并通过实际案例演示数据同步及关联查询过程。

Hive整合HBase的环境配置以及测试

1，环境配置

因为Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的，其具体工作交由Hive的lib目录中的hive-hbase-handler-.jar工具类来实现。所以只需要将hive的 hive-hbase-handler-.jar 复制到hbase/lib中就可以了。
切换到hive/lib目录下
输入:

cp hive-hbase-handler-*.jar /opt/hbase/hbase1.2/lib

这里写图片描述
注: 如果在hive整合hbase中，出现版本之类的问题，那么以hbase的版本为主，将hbase中的jar包覆盖hive的jar包。

2，hive和hbase测试

在进行测试的时候，确保hadoop、hbase、hive环境已经成功搭建好，并且都成功启动了。
打开xshell的两个命令窗口
一个进入hive，一个进入hbase

6.2.1在hive中创建映射hbase的表

在hive中创建一个映射hbase的表，为了方便，设置两边的表名都为t_student，存储的表也是这个。
在hive中输入:

create table t_student(id int,name string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:name") tblproperties("hbase.table.name"="t_student","hbase.mapred.output.outputtable" = "t_student");

说明：第一个t_student 是hive表中的名称，第二个t_student是定义在hbase的table名称，第三个t_student 是存储数据表的名称("hbase.mapred.output.outputtable" = "t_student"这个可以不要，表数据就存储在第二个表中了) 。
(id int,name string) 这个是hive表结构。如果要增加字段，就以这种格式增加。如果要增加字段的注释，那么在字段后面添加comment ‘你要描述的’。
例如:
create table t_student(id int comment ‘StudentId’,name string comment ‘StudentName’)
org.apache.hadoop.hive.hbase.HBaseStorageHandler 这个是指定的存储器。
hbase.columns.mapping 是定义在hbase的列族。
例如:st1就是列族，name就是列。在hive中创建表t_student，这个表包括两个字段（int型的id和string型的name）。映射为hbase中的表t_student，key对应hbase的rowkey，value对应hbase的st1:name列。

表成功创建之后
在hive、hbase分别中查看表和表结构
hive中输入

show tables；
describe t_student;

hbase输入:

list
describe ‘t_student’

这里写图片描述

这里写图片描述
可以看到表已经成功的创建了

6.2.2数据同步测试

进入hbase之后
在t_student中添加两条数据然后查询该表

put 't_student','1001','st1:name','zhangsan'
put 't_student','1002','st1:name','lisi'
scan 't_student'

这里写图片描述

然后切换到hive中
查询该表
输入:

select * from t_student;

这里写图片描述

然后在hive中删除该表
注:因为做测试要看结果，所以将表删除了。如果同学们要做测试的话，是没有必要删除该表的，因为在后面还会使用该表。

然后查看hive和hbase中的表是否删除了
输入:

drop table t_student;

这里写图片描述

这里写图片描述
通过这些可以看到hive和hbase之间的数据成功同步！

6.2.3关联查询测试

hive外部表测试

先在hbase中建一张t_student_info表，添加两个列族
然后查看表结构
输入:

create 't_student_info','st1','st2'
describe 't_student_info'

这里写图片描述

然后在hive中创建外部表
说明:创建外部表要使用EXTERNAL 关键字
输入:

create external table t_student_info(id int,age int,sex string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:age,st2:sex") tblproperties("hbase.table.name"="t_student_info");

这里写图片描述

然后在t_student_info 中添加数据

put 't_student_info','1001','st2:sex','man'
put 't_student_info','1001','st1:age','20'
put 't_student_info','1002','st1:age','18'
put 't_student_info','1002','st2:sex','woman'

这里写图片描述

然后在hive中查询该表
输入:

select * from t_student_info;

这里写图片描述

查询到数据之后，然后将t_student 和t_student_info进行关联查询。
输入:

select * from t_student t join t_student ti where t.id=ti.id ;

这里写图片描述
说明:通过关联查询，可以得出表之间是可以关联查询的。但是明显看到hive 使用默认的mapreduce 作为引擎是多么的慢。。。

其他说明:
由于自己的虚拟机配置实在太渣，即使调大reduce内存，限制每个reduce处理的数据量，还是不行，最后没办法使用公司的测试服务进行测试。
在查询一张表的时候，hive没有使用引擎，因此相对比较快，如果是进行了关联查询之类的，就会使用引擎，由于hive默认的引擎是mr，所以会很慢，也和配置有一定关系，hive2.x以后官方就不建议使用mr了。