场景一:
在采集数据的时候一个文件上传到HDFS的文件发现都是小文件 原因是hadoop的组件NamaNode出现问题 导致出现小文件得到错误
解决方法:
1. 将服务器上的Hadoop根目录中 data/ logs 两个文件删除
rm -rf data/ logs/
2. 将NameNode初始化/格式化
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,
集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,
一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。
hdfs namenode -format
3.重新开启hadoop 看是否有四个进程433
===============hadoop102===============
13841 NodeManager
13409 NameNode
13972 JobHistoryServer
13567 DataNode
&nb

本文介绍了在HDFS中遇到小文件问题的两种场景及其解决办法。场景一是由于NamaNode错误导致,解决方法包括删除数据和日志文件,重新格式化NameNode,重启Hadoop并确认进程正常。场景二是API上传造成的小文件问题,建议采用har归档、CombineTextInputFormat或开启JVM重用来优化。此外,还提到了MySQL通过sqoop上传文件时对NULL值的处理问题。
最低0.47元/天 解锁文章
2038

被折叠的 条评论
为什么被折叠?



