Hadoop InputFormat浅析--hadoop如何分配输入
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。
数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。
先从一张经典的MapReduce工作流程图出发:
1、运行mapred程序;
2、本次运行将生成一
转载
2012-06-18 14:19:10 ·
4486 阅读 ·
2 评论