hive优化处理大量小文件

Stupid阳光

已于 2023-04-12 14:49:37 修改

阅读量2.5k

点赞数 12

文章标签： hive big data 大数据数据仓库 odps

于 2022-06-21 15:27:34 首次发布

本文链接：https://blog.youkuaiyun.com/qq_32278923/article/details/125391820

版权

本文探讨了Hive小文件问题，涉及其产生的动态分区、数据源、性能影响，以及应对策略，如使用sequencefile、Hadoop Archive、HDFS Federation、调整map/reduce参数和重建表等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、hive小文件

Hive的数据存储在HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。HDFS主要分为NameNode，DataNode，SecondaryNameNode。
简单来说，HDFS数据的文件元信息，包括位置、大小、分块信息等，都是保存在NameNode的内存中的（真正的数据是存储在DataNode）。每个对象约占用150个字节，因此一千万个文件及分块就会占用约3G的内存空间(每个小文件都会占用NameNode模块的存储资源)，一旦接近这个量级，NameNode的性能就会开始下降了。此外，HDFS读写小文件时也会更加耗时，因为每次都需要从NameNode获取元信息，并与对应的DataNode建立连接，读取数据。对于MapReduce程序来说，小文件还会增加Mapper的个数，每个脚本只处理很少的数据，浪费了大量的调度时间。当然这个问题可以通过使用CombinedInputFile和JVM重用来解决。