HDFS一个文件出现多个小文件的问题

最新推荐文章于 2023-04-01 12:22:05 发布

原创

最新推荐文章于 2023-04-01 12:22:05 发布 · 2.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #hadoop #big data

本文介绍了在HDFS中遇到小文件问题的两种场景及其解决办法。场景一是由于NamaNode错误导致，解决方法包括删除数据和日志文件，重新格式化NameNode，重启Hadoop并确认进程正常。场景二是API上传造成的小文件问题，建议采用har归档、CombineTextInputFormat或开启JVM重用来优化。此外，还提到了MySQL通过sqoop上传文件时对NULL值的处理问题。

场景一:

在采集数据的时候一个文件上传到HDFS的文件发现都是小文件原因是hadoop的组件NamaNode出现问题导致出现小文件得到错误

解决方法:
   1. 将服务器上的Hadoop根目录中 data/ logs 两个文件删除
       rm -rf data/ logs/
   2. 将NameNode初始化/格式化
   注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，
   集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，
   一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。
       hdfs namenode -format
   3.重新开启hadoop 看是否有四个进程433
       ===============hadoop102===============
       13841 NodeManager
       13409 NameNode
       13972 JobHistoryServer
       13567 DataNode
&nb