【Hive】如何在 Hive 中创建外部表映射 Hbase 中已存在的表

本文详细介绍了如何在Hive中集成HBase,包括上传jar文件、配置hive-site.xml和hive-env.sh、创建关联表及外部表、注意事项等关键步骤,确保数据在Hive与HBase间顺畅流动。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、上传完整的jar文件到hive/lib中

  1. 删除hive/lib下所有文件
  2. 解压上传hive所有的jar到该目录下

二、修改hive-site.xml

    <name>hbase.zookeeper.quorum</name>
    <value>ghym,ghys1,ghys2</value>#自定义的zookeeper集群电脑名与hbase建立联系
    <name>hive.zookeeper.quorum</name>
    <value>ping1,ping2,ping4</value>#自定义的zookeeper集群电脑名与hive建立联系
    <name>hive.aux.jars.path</name>#将jar文件的位置指定为本地目录,否则默认在HDFS上寻找jar
    <value>file:///home/hadoop/hive-2.3.3/lib/hbase-server-1.1.1.jar,file:///home/hadoop/hive-2.3.3/lib/hbase-client-1.1.1.jar,file:///home/hadoop/hive-2.3.3/lib/hive-hbase-handler-2.2.0.jar,file:///home/hadoop/hive-2.3.3/lib/zookeeper-3.4.6.jar</value>

三、修改hive-env.sh

export HADOOP_HOME=/home/hadoop/hadoop-2.9.0#hadoop目录
export HBASE_HOME=/home/hadoop/hbase-1.2.6#hbase目录
export HIVE_CONF_DIR=/home/hadoop/hive-2.3.3/conf#hive配置文件目录

四、在hive和hbase中分别创建相关联的表并通过hive向hbase表中加载数据

CREATE TABLE hive表名(key int, value1 string, value2 int,...)#hive表列名和数据类型 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" = ":key,a:b,a:c,..."#hbase表rowkey,列族:列名
)TBLPROPERTIES(
"hbase.table.name"="hbase表名",
"hbase.mapred.output.outputtable"="hbase表名"
);
#不支持load data命令,通过insert从其他表查询数据加载
insert overwrite table hive表名 select eno,ename,... from emp;

关键字

  1. STORED BY 表示使用hive配置中的类完成向hbase中存储数据
  2. WITH SERDEPROPERTIES 表示创建hive临时对应hbase表的列族名称
  3. TBLPROPERTIES 表示对应hbase中表的名称
  4. hbase.mapred.output.outputtable表示mapreduce操作向hbase表中输出

五、在hive中创建外部表映射hbase中已存在的表

CREATE EXTERNAL TABLE hive表名(key int, value1 string, value2 int,...)#hive表列名和数据类型 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" = ":key,a:b,a:c,..."#hbase表rowkey,列族:列名
)TBLPROPERTIES(
"hbase.table.name"="hbase表名",
"hbase.mapred.output.outputtable"="hbase表名"
);

特点

  1. 建表或映射表的时候如果没有指定:key则第一个列默认就是行键
  2. HBase对应的Hive表中没有时间戳概念,默认返回的就是最新版本的值
  3. 由于HBase中没有数据类型信息,所以在存储数据的时候都转化为String类型

六、特别注意

  1. 对HBase表进行预分区,增大其MapReduce作业的并行度
  2. 合理的设计rowkey使其尽可能的分布在预先分区好的Region上
  3. 通过set hbase.client.scanner.caching设置合理的扫描缓存
### 如何在 Hive创建 HBase 外部表 为了使 Hive 能够访问存储于 HBase 的数据,在 Hive 中需创建一个外部表映射已经存在HBase 中的数据。此过程不会复制任何实际数据;相反,它会告知 Hive 数据的位置以及如何解析这些数据。 #### 准备工作 确认 HBase 安装和配置正确,并验证 HBase shell 工具能否正常运行[^1]。确保环境变量设置适当以便可以从 Hive 访问 HBase。 #### 创建 HBase 如果目标是在现有 HBase 基础上操作,则跳过这一步骤。对于新项目而言,可能需要预先定义好 HBase 结构并执行如下命令: ```sql create 'my_table', 'cf' ``` 这里 `my_table` 是新建的 HBase 名称而 `cf` 则代列族(column family)的名字。 #### 在 Hive创建 EXTERNAL TABLE 映射HBase 下面是一个具体的例子展示怎样利用 Hive 来建立对外部 HBase 的引用: ```sql CREATE EXTERNAL TABLE my_hive_external_table( key STRING, value STRING ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf:value") TBLPROPERTIES("hbase.table.name" = "my_table"); ``` 这段 SQL 命令做了几件重要的事情: - 使用 `CREATE EXTERNAL TABLE` 关键字声明这是一个指向其他地方(即 HBase存在格; - 设置 `STORED BY` 子句指定使用特定的 Storage Handler 类型处理该; - 配置 `SERDEPROPERTIES` 参数指明 HBase映射关系,其中`:key` 对应行健(row key),其余部分对应具体列路径; - 添加 `TBLPROPERTIES` 属性绑定到对应的 HBase 名。 注意 `"hbase.columns.mapping"` 后面的内容应该在同一行内书写,不允许有额外空白字符或换行符[^4]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值