如何导出hive中的数据

最新推荐文章于 2024-07-30 23:21:01 发布

原创最新推荐文章于 2024-07-30 23:21:01 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #导出 #hdfs

大数据/hive 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了两种从Hive导出数据的方法：一是通过Linux命令，包括使用hive-e和hive-f命令将数据导出到本地文件；二是使用hive命令将数据导出到本地文件系统或HDFS。此外还详细说明了如何修改列之间的分隔符。

从Hive中导出数据，写入到可以直接使用的文件，方法如下：

导出到本地

方法一：使用 linux 命令
可以使用 hive -e 或者 -f 命令，其中 -e 表示直接执行后面跟的参数sql，-f 表示执行文件中所有的sql。

$ hive -e "select * from dev.test_table limit 10" > hive_result

这个命令会将 select * from dev.test_table limit 10 的结果写入到 hive_result 本地文件中，每一列用 \t 相连接。

$ cat hive_sql 
select * from dev.test_table limit 10;
select sku_id from dev.test_table limit 10;
$ hive -f hive_sql > hive_result2

这个命令会将两个sql的结果依次写入到 hive_result2 本地文件中，每一列用 \t 相连接。两个 sql 的列数可以不同。

方法二：使用 hive 命令

hive> insert overwrite local directory 'hive_result3'
    > select * from dev.test_table limit 10;

这个命令会将结果写入到 hive_result3 文件夹下，如 hive_result3/000000_0 。每一列用 ^A 相连接。
如果不想用 ^A 分割，可以修改列之间的分隔符，如：

hive> insert overwrite local directory 'hive_result4'
    > row format delimited
    > fields terminated by '\t'
    > select * from dev.test_table limit 10;

这个命令会将结果写入到 hive_result4/000000_0 ，每一列用 \t 相连接。

备注：
[row format delimited]关键字，是用来设置创建的表在加载数据的时候，支持的列分隔符。
比如：
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' COLLECTION ITEMS TERMINATED BY '\002' MAP KEYS TERMINATED BY '\003'
表示不同列之间用一个\001分隔，集合(例如array, map)的元素之间以\002分隔，map中key和value用\003分隔。

导出到HDFS

使用 linux 命令实现：

hive> insert overwrite directory '/user/test'
    > select * from dev.test_table limit 10;

和导入数据到本地文件系统类似，但是少了 local 。这个命令将会在 HDFS 的 /user/test 目录下保存导出来的数据。