Hive-数据导入的几种方式

最新推荐文章于 2024-07-27 11:00:39 发布

峰二爷

最新推荐文章于 2024-07-27 11:00:39 发布

阅读量546

点赞数

分类专栏：笔记总结文章标签： hive 大数据

本文链接：https://blog.youkuaiyun.com/bwf317/article/details/110405024

版权

本文详细介绍了Hive中数据导入的五种方法：1) 建表时指定location导入；2) 直接将数据文件put到HDFS表目录；3) 使用LOAD DATA命令加载数据，包括追加和覆盖；4) 通过INSERT语句插入数据；5) 使用IMPORT导入export导出的数据。每种方法都有其适用场景和操作步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

几种基本的导入数据方式：
1 建表的时候指定location 结构化数据的位置文件夹外部表
例：
①新建user1.txt 文件将该文件上传到HDFS 的/data/test/目录下
②建表
create external table tb_user2(
id int,
name string
)
row format delimited fields terminated by ‘\t’
location ‘/data/test/’;

③此时创建外部表时直接指定数据的位置，查看表时数据直接就在表中了。

2 可以直接将结构化数据put到hdfs中表的目录下（建表时的位置，忘了可以通过 desc formatted 表名来查）
如果本身就是HDFS中的数据 hdfs dfs -mv 移动文件
例：
①本地创建一个文件写入结构化数据 vi tb_user1.txt
②随便创建一个表

create external table tb_user2(
id int,
name string
)
row format delimited fields terminated by ‘\t’;

③此时表在HDFS中位置为：/user/hive/warehouse/tb_user2
④将文件tb_user1.txt 上传到该路径下：
hdfs dfs -put ./tb_user1.txt /user/hive/warehouse/tb_user2/
⑤此时select *from tb_user2 会发现tb_user1.txt中的数据已经进入到表中了
⑥再传一次数据(不会冲突，此时表名的目录下会有两个文件。查询表数据发现数据又多一遍)
hdfs dfs -put ./tb_user1.txt /u

最低0.47元/天解锁文章