创建Hive外部表，关联HDFS文件

最新推荐文章于 2022-08-03 15:59:27 发布

攻城狮Kevin

最新推荐文章于 2022-08-03 15:59:27 发布

阅读量5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hive 文章标签： Hive

本文链接：https://blog.youkuaiyun.com/wx1528159409/article/details/100008931

Hive 专栏收录该内容

66 篇文章

订阅专栏

本文介绍了一种将HDFS上结构化数据导入Hive外部表的方法，通过创建外部表并关联HDFS数据，实现直接使用SQL查询HDFS数据，测试表明此方法稳定可靠。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

适用于HDFS中存放结构化数据的场景，

先建一张外部表

CREATE EXTERNAL TABLE IF NOT EXISTS `ds_smart_log_idmapping`(
  `id` string COMMENT '包含wimei、wuser、telep、dimei和idfa', 
  `ffaid` string COMMENT 'ffaidXXX',
  `timeStamp` string COMMENT '时间戳，用于聚合3-90d粒度数据')
COMMENT 'smart项目 ds层idmapping历史全量数据表'
PARTITIONED BY ( 
  `dt` string COMMENT '日期yyyymmdd')
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t';

然后关联HDFS数据

alter table wbdb.ds_smart_log_idmapping add IF NOT EXISTS partition (dt="20190816") location 'viewfs://XXXXX/20190816';

这样就将HDFS上的结构化数据，导入外部表，可以直接通过sql语句来查询。

ps：建外部表，关联HDFS文件也有其他方式，但测试后发现这种方式最靠谱。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

攻城狮Kevin

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HIVE3.1.2外部表映射hdfs的ORC文件，列值为空的问题解决办法

nhm_lxy的专栏

06-13

465

HIVE3.1.2外部表映射hdfs的ORC文件，列值为空的问题解决办法。因为ORC的schema列名包含大写字母，导致列值被置为空。增加大写字母敏感属性值为false即可。或者创建表的时候指定该属性值。

Hive讲课笔记：内部表与外部表

howard2005的专栏

12-28

1701

Apache Hive作为大数据处理的重要工具，其内部表与外部表是两种核心的数据存储和管理机制。内部表由Hive全权管理，数据存储在HDFS特定目录下，删除时会连同元数据及HDFS数据一同删除；创建过程包括定义表结构、插入数据等步骤，并且完全依赖于Hive系统。

参与评论您还未登录，请先登录后发表或查看评论

在hive中创建分区表,再关联到hdfs有关位置,而不需导入数据到hive表

宝罗Paul 的博客

10-20

9990

【需求】有时候我们不想导入数据到hive中，而是通过在hive中创建关联表的方式查询hdfs上的数据，之后就能通过hive客户端或者spark应用程序获取hive的数据了。【原理】由于在hdfs中已存入了我们提前整理好的结构化数据(例如每条记录都是以逗号分隔)，那么在hive中建一个相同结构的表，再把此表关联到相应的hdfs目录就可以了。下面一个小案例讲一下我的经验。步骤——步骤一：在hive中创...

HDFS关联到hive外部表，并实现查询返回结果

sinat_26566137的博客

05-20

921

背景现在已知有hdfs的分区文件，想创建一个hive外部表查询数据；解决方式解决方式1（亲测有效，推荐） 1）首先创建hive外部表； CREATE TABLE dw.tab_a ( `id` bigint, `created_dt` string, `CRE_DATE` date, `UPD_DATE` TIMESTAMP, `CRE_USER` string, `UPD_USER` string ) PARTITIONED BY (`dt` str

hive1.1.0建立外部表关联HDFS文件

weixin_30677617的博客

11-08

350

0. 说明已经安装好Hadoop和hive环境，hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联，并且删掉外部表之后，对HDFS上的文件没有影响。 1. 在HDFS创建分区，并存有文件手工创建或者由程序在HDFS上生成了分区目录，每个分区目录下有相应的文件。本例中根据day分了两个分区，如下所示： /test/in/day=20/20.txt /test/...

hive建立内外部表关联HDFS文件

学海无涯的博客

06-13

3922

参考此博主文章：https://www.cnblogs.com/fefjay/p/6044474.html 一、关于Hive的insert into 和 insert overwrite与数据分区 1》数据分区：数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表...

hive 分区表关联hdfs文件数据

Mord15的博客

08-03

707

hive 分区表关联hdfs文件数据

HIVE外部表删除重建指定HDFS目录后查询不到数据

数据库

05-22

4482

HIVE外部表删除重建指定HDFS目录后查询不到数据，怎么办删除了外部表，没有删除hdfs文件重建了外部表又关联到之前的hdfs目录之后，select查询却没有数据需要MSCK REPAIR TABLE+tablename，之后查询，数据就回来了。 MSCK REPAIR TABLE命令是做啥的 MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 hive有个服务叫metastore，

Hive创建外部表详细步骤

zhengzaifeidelushang的博客

08-18

3403

Hive创建外部表详细步骤一、创建外部表二、hdfs建立文件夹存放数据三、准备数据四、上传数据到HDFS目录五、Hive表关联文件得到数据六、查询数据一、创建外部表 create external table grainfo( id int COMMENT '', name string COMMENT '', score1 int COMMENT '') PARTITIONED BY (dt int) row format delimited fields terminated by ',' loca

Hive建Hdfs外部分区表

BabyFish13

04-12

4314

1、目录及数据准备 hadoop dfs -rmr /tmp/oss_access_test/2017-04-01 hadoop dfs -mkdir -p /tmp/oss_access_test/2017-04-01/ hadoop dfs -cp /tmp/oss_access/2017-04-01/sz-98-72_localhost_access_log.2017-04-01.*.tx

hive表新建外部表关联hdfs文件

weixin_34362790的博客

02-07

2024

为什么80%的码农都做不了架构师？>>> ...

Hive建立外部表表external table

最新发布

06-09

<think>首先，用户的问题是关于通过Hive外部表关联HBase表的配置步骤，我需要参考提供的引用来构建清晰的回答。回顾引用内容：-[1]：提到了创建Hive外部表映射到HBase表的第一步是在HBase中创建表，并确保HBase安装正确。-[2]：提到使用Hive创建外表关联HBase表，用于查询统计。-[3]：展示了在SparkSQL查询Hive外部表时出现的问题，解决方法涉及添加JAR包到Spark。-[4]：给出了具体SQL例子创建外部表。-[5]：似乎误引用了其他内容，但提到内部表和外部表的区别。用户需求：了解配置步骤，关键点是Hive外部表关联HBase。我的回答需要：-使用中文。-结构清晰，逐步解释。-所有数学表达用$...$内联，独立公式用$$...$$。但在这个问题中可能不涉及太多数学，除非提到公式。-生成相关问题。-引用添加标识，如[^1]。-确保引用正确。结构化回答：1.**引言**：简要介绍Hive外部表关联HBase表的用途。2.**步骤详解**：-Step1：确保HBase表存在并配置正确。-Step2：在Hive中创建外部表。-Step3：关键配置，如SERDE和映射。-Step4：测试查询。3.**注意事项**：常见问题解决，如从[^3]。4.**相关问题**：生成相关问题。从引用提取关键步骤：-Step1:在HBase中创建表（引用[^1]）。-`hbaseshell`创建表，如`create'users:china_mainland','act'`-Step2:在Hive中创建外部表（引用[^4]）：-例子：`CREATEEXTERNALTABLE...STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'...`-Step3:映射配置：-`WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,act:url")`-`TBLPROPERTIES("hbase.table.name"="users:china_mainland")`-注意事项：如果使用SparkSQL，需添加相关JAR包（引用[^3]）。完整步骤：1.**前置条件**：确保HBase服务运行正常，HBase表已创建。2.**创建Hive外部表**：-使用`STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'`。-指定列映射（`hbase.columns.mapping`）。-指定HBase表名（`hbase.table.name`）。3.**可能的问题**：如Spark兼容性，需添加HBase和Hive相关JAR。添加引用标识：-提到步骤时，末尾加[^1],[^4]等。生成相关问题：-从系统指令："生成相关问题"。-类似示例：例如，"Hive外部表查询性能如何？"或"如何解决Spark查询错误？"最终回答结构：-开头：概述步骤。-逐步指南。-结尾添加相关问题。</think> ### 如何通过 Hive 外部表关联 HBase 表：配置步骤详解通过 Hive 外部表关联 HBase 表，可以实现异构数据源的联合查询和数据共享。这种方法允许您使用 Hive 的 SQL 语句直接操作 HBase 表数据，而无需移动数据。以下是基于引用内容的完整配置步骤，包括关键细节和注意事项。整个过程分为四个主要步骤：前置检查、在 HBase 中创建表、在 Hive 中创建外部表、和测试查询。请注意，所有配置项必须严格遵循引用中的建议，否则可能导致兼容性问题。 #### 1. **前置条件：确保环境正确配置** - **验证 HBase 安装和运行状态**： - 确认 HBase 服务已启动：在命令行运行 `hbase shell`，检查是否能正常连接。 - 确保 HDFS 与 Zookeeper 配置正确，因为 HBase 依赖这些服务。如果遇到连接错误，参考集群文档修复网络或配置问题[^1]。 - **验证 Hive 和 HBase 版本兼容性**： - Hive 2.x+ 和 HBase 1.x+ 或 2.x+ 的兼容性较好。使用 `hive --version` 和 `hbase version` 命令检查版本。 - **关键点**：如引用[^3]所述，如果在 Kerberos 安全环境下运行，需确保 hive-site.xml 中的安全配置（如 Kerberos principal）已正确设置。 #### 2. **在 HBase 中创建表（前提步骤）** - HBase 表是关联的基础，需先创建它，Hive 外部表才能映射。 - **步骤**： 1. 进入 HBase Shell：运行 `hbase shell`。 2. 创建命名空间和表（如引用[^4]例子）： ```sql create_namespace 'users' -- 可选，组织表名空间 create 'users:china_mainland', 'act' -- 创建表 'users:china_mainland'，列族为 'act' ``` - 这里 `users:china_mainland` 是表名（格式：`<namespace>:<table_name>`），`act` 是列族名。 3. 插入示例数据（可选）：例如，`put 'users:china_mainland', 'row1', 'act:url', 'example.com'`。 - **注意事项**：表名和列族名需在后续 Hive 配置中一致对应[^4]。如果 HBase 表未创建，Hive 表将无法关联查询[^1]。 #### 3. **在 Hive 中创建外部表（核心步骤）** - 使用 Hive 的 `CREATE EXTERNAL TABLE` 命令映射到 HBase 表。这一步定义了表结构、映射关系和存储处理器。 - **完整示例（基于引用[^4]）**： ```sql -- 创建外部表，关联到 HBase 表 'users:china_mainland' CREATE EXTERNAL TABLE china_mainland_acturl( rowkey STRING, -- 对应 HBase Rowkey act_url STRING -- 对应列族 'act' 下的列 'url' ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' -- 指定存储处理器 WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,act:url") -- 列映射（关键配置） TBLPROPERTIES ("hbase.table.name" = "users:china_mainland"); -- 指定 HBase 表名 ``` - **关键配置解析**： - **`STORED BY`**：必须为 `'org.apache.hadoop.hive.hbase.HBaseStorageHandler'`，这是 Hive 处理 HBase 的引擎。 - **`WITH SERDEPROPERTIES`**： - `"hbase.columns.mapping" = ":key,act:url"`：定义列映射。 - `":key"` 映射到 Rowkey 字段（在 Hive 表中定义为 `rowkey`）。 - `"act:url"` 表示列族 `act` 下的列 `url`（在 Hive 表中定义为 `act_url`）。 - 格式规则：列映射顺序必须与 Hive 表列顺序一致，多个列用逗号分隔，例如 `":key, cf1:col1, cf2:col2"`。 - **`TBLPROPERTIES`**： - `"hbase.table.name" = "users:china_mainland"`：指定 HBase 表的全名（包括命名空间）。 - 可选属性：例如 `"external.table.purge" = "false"`（确保删除 Hive 表不影响 HBase 数据）[^4]。 - **注意事项**： - **Hive 表类型**：确保使用 `EXTERNAL TABLE`，而非内部表（内部表删除会级联删除 HBase 数据）[^5]。 - **权限设置**：在 Kerberos 环境下，需配置表访问权限（如 `grant ... to user`）。 - **常见错误**：如映射错误导致查询失败，检查列名是否大小写一致[^4]。 #### 4. **测试查询和常见问题处理** - **测试查询**： - 在 Hive 中运行简单查询：`SELECT * FROM china_mainland_acturl;`。 - 如果数据量大，使用 `LIMIT` 子句避免性能问题。 - **故障排除**： - **SparkSQL 查询问题**（如引用[^3]）：如果通过 SparkSQL 查询 Hive 外部表，可能遇到 `ClassNotFoundException`。解决方法： - 添加缺失 JAR 到 Spark 的 jars 目录：`hbase-client-<version>.jar`, `hbase-common-<version>.jar`, `hive-hbase-handler-<version>.jar` 等。具体版本需匹配集群环境。 - 重启 Spark 服务。 - **其他问题**： - 数据不一致：确保 HBase 表更新后，Hive 元数据刷新（可选：运行 `msck repair table ...`）。 - 性能优化：如果查询慢，检查映射配置是否正确；考虑 HBase 行键设计对查询效率的影响[^2]。 ###