MapReduce小文件问题
(1).小文件处理的弊端
1.每个小文件都要执行一次map任务,增加map任务的开销.
2.小文件太多,会耗费很多时间去寻址.
3.需要记录小文件的元数据,造成namenode的内存浪费.
(2)解决办法
1.尽量避免出现小文件,将多个小文件合并成一个顺序文件,文件名作为键,文件内容作为值.
2.如果HDFS中出现了大批小文件,CombineFileInputFormat将多个小文件打包到一个分片中.
3.使用Hadoop自带的archive工具,主要减少namenode的负载.
本文探讨了MapReduce处理小文件时存在的问题及其对系统性能的影响,并提出了几种有效的解决方案,包括合并小文件、使用CombineFileInputFormat以及利用Hadoop自带的archive工具。
1041

被折叠的 条评论
为什么被折叠?



