源码分析Hadoop FileInputFormat如何分片
Hadoop采用的是分布式并行计算的模式来处理大数据,在处理时必然要对数据进行分片,将数据由大化小,将一个大的任务化为几个小的任务,这就是hadoop处理大数据的核心思想。
这里要讨论的是hadoop对数据进行分割的方片,这里的分片是逻辑上的,不同于Hdfs对数据的分块,分片并没有改变数据的存储位置。分片在hadoop中由InputFormat这个类体系来完成。
原创
2014-12-17 15:14:55 ·
1004 阅读 ·
0 评论