解决hive小文件过多问题

王知无(import_bigdata)

已于 2022-07-15 22:17:49 修改

阅读量1.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Hive系统性学习专栏文章标签： hive big data

于 2021-10-17 14:18:03 首次发布

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.youkuaiyun.com/u013411339/article/details/120810469

76 篇文章 ¥29.90 ¥99.00

订阅专栏

小文件在Hive中可能导致元数据负担重和资源浪费。它们由插入数据、LOAD操作和无reduce任务的查询产生。解决方案包括使用`concatenate`命令合并文件、调整Hadoop参数以减少Map和Reduce任务，启用压缩，以及使用HAR归档小文件。orc文件格式和lzo压缩可进一步优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

小文件产生原因

hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式

1. 直接向表中插入数据

insert into table A values (1,'zhangsan',88),(2,'lisi',61);

这种方式每次插入时都会产生一个文件，多次插入少量数据就会出现多个小文件，但是这种方式生产环境很少使用，可以说基本没有使用的

2. 通过load方式加载数据

load data local inpath '/export/score.csv' overwrite into table A  -- 导入文件

load data local inpath '/export/score' overwrite into table A   -- 导入文件夹

使用 load 方式可以导入文件或文件夹，当导入一个文件时，hive表就有一个文件，当导入文件夹时，hive表的文件数量为文件夹下所有文件的数量

3. 通过查询方式加载数据

insert overwrite table A select s_id,c_name,s_score from B;

这种方式是生产环境中常用的，也是最容易产生小文件的方式

insert 导入数据时会启动 MR 任务，MR中 reduce 有多少个就输出多少个文件

所以，文件数量=ReduceTask数量*分区数

也有很多简单任务没有reduce，只有map阶段，则

了解本专栏