通过HQL语句
可以将hive 中表的数据生成到指定的目录。
有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)
方法有如下2种:
1.INSERT OVERWRITE LOCAL DIRECTORY
将结果输出到指定的目录:
生成的文件数 和redurcer的数目的一样的
在hive中,一般情况下通过
use my_hive_db;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task= 1000000000;
set hive.merge.smallfiles.avgsize= 1000000000;
insert overwrite directory '路径' row format delimited fields terminated by ',' SQL语句;
导出文件时,会遇本来表中本来字段值为null的字段导出时为\n。
解决方案:
insert overwrite directory '路径'
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'= '',
'serialization.null.format'=''
) STORED AS TEXTFILE
select foo, null, bar from map_table;
导入到HDFS和导入本地文件类似,去掉HQL语句的LOCAL就可以了
备注:
1)设置 alter table name SET S

本文介绍了两种在Hive中将表数据导出到本地文件的方法:INSERT OVERWRITE LOCAL DIRECTORY和通过-e及-f参数导出。使用INSERT OVERWRITE LOCAL DIRECTORY时,导出的文件数量与reducer数目相同,而查询时遇到null值会被替换为换行符。解决这个问题可以通过设置'serialization.null.format'属性。另外,直接使用-hiveconf e或-f参数执行HQL语句,可以生成一个以空格分隔的单一输出文件。
最低0.47元/天 解锁文章
3355

被折叠的 条评论
为什么被折叠?



