hive导出查询文件到本地文件

最新推荐文章于 2025-04-25 20:10:10 发布

原创

最新推荐文章于 2025-04-25 20:10:10 发布 · 2.3k 阅读

4 ·

CC 4.0 BY-SA版权

本文介绍了两种在Hive中将表数据导出到本地文件的方法：INSERT OVERWRITE LOCAL DIRECTORY和通过-e及-f参数导出。使用INSERT OVERWRITE LOCAL DIRECTORY时，导出的文件数量与reducer数目相同，而查询时遇到null值会被替换为换行符。解决这个问题可以通过设置'serialization.null.format'属性。另外，直接使用-hiveconf e或-f参数执行HQL语句，可以生成一个以空格分隔的单一输出文件。

通过HQL语句
可以将hive 中表的数据生成到指定的目录。
有时候我们可以利用hive来生成统计的中间文件（比源文件小的多的）
方法有如下2种：

1.INSERT OVERWRITE LOCAL DIRECTORY

将结果输出到指定的目录：
生成的文件数和redurcer的数目的一样的
在hive中，一般情况下通过

use my_hive_db;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task= 1000000000;
set hive.merge.smallfiles.avgsize= 1000000000;
insert overwrite directory '路径' row format delimited fields terminated by ',' SQL语句；

导出文件时，会遇本来表中本来字段值为null的字段导出时为\n。

解决方案：

insert overwrite directory '路径'
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'= '',
'serialization.null.format'=''  
) STORED AS TEXTFILE
select foo, null, bar from map_table;

导入到HDFS和导入本地文件类似，去掉HQL语句的LOCAL就可以了

备注：

1）设置 alter table name SET S