日常问题系列——使用parquet-hadoop-1.8.1.jar提供的parquet文件合并，出现too many open files错误

最新推荐文章于 2022-11-08 17:11:00 发布

GC_NJUPT_CODE

最新推荐文章于 2022-11-08 17:11:00 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop parquet 文章标签： parquetfilewriter too many open files lsof parquet-hadoop-1.8.2.jar

本文链接：https://blog.youkuaiyun.com/njuptcyd/article/details/89740011

本文介绍了在使用parquet-hadoop进行文件合并时遇到的'too many open files'问题。通过分析ParquetFileWriter源码，发现由于文件句柄未正确关闭导致该问题。提出了两种解决方案：一是直接修改源码，二是自定义ParquetFileWriter子类。最终选择了不修改源码的方案以遵循开闭原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景说明

利用apache parquet-mr项目提供的parquet合并接口，完成hdfs上parquet文件的合并，从而减少hdfs上的小文件，减少文件元数据占据namenode的内存。

问题描述

现场环境上线parquet文件合并算子，运行一段时间后，日志中出现too many open files。利用lsof -p 进程号|wc -l命令来查看进程打开的文件句柄数，发现已经接近系统设置的最大数65535。

解决过程

查看org.apache.parquet.hadoop.ParquetFileWriter源码

public void appendFile(Configuration conf, Path file) throws IOException {
  ParquetFileReader.open(conf, file).appendTo(this);
}

public void appendTo(ParquetFileWriter writer) throws IOException {
  writer.appendRowGroups(f, blocks, true);
}

public void appendRowGroup(SeekableInputStream from, BlockMetaData rowGroup,
  boolean dropColumns) throws IOException {
  startBlock(rowGroup.getRowCount());
  Map<String, ColumnChunkMetaData> columnsToCopy =
      new HashMap<String, ColumnChunkMetaData>();
  for (ColumnChunkMetaData chunk : rowGroup.getColumns()) {