小文件处理专题
小文件处理专题一 MapReduce1.1 小数据带来的问题在HDFS上,每个文件在NameNode上占150Byte(在内存中占用),如果小文件过多的话就占用大量的Namenode内存,并且查找元数据的速度会很慢在处理MapReduce的过程中每一个小文件就要启动切一片,并且要启动一个maptask,每个maptask默认内存是1G,这样会大量消耗NodeManager内存,同时一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。1.2 如何解决从数据源头解
原创
2021-04-17 10:08:41 ·
225 阅读 ·
0 评论