1、client提交数据到DFS,然后被分为多个split,然后通过inputformatter以key-value传给jobTraker,jobTraker分排工作给多个map(taskTraker),工程师重写map,在各个taskTraker上分别执行代码任务,做到数据不动,代码动。真正实现代码分布式。
2、tasktraker执行完代码后,将结果通过上下文收集起来,再传给reduce(也是taskTraker),经过排序等操作,再执行工程师重写的reduce方法,最终将结果通过outputFormatter写到DFS。
本文详细介绍了MapReduce的工作原理及其实现过程。首先,客户端提交的数据被划分为多个部分,并通过特定格式传递给JobTracker进行任务分配。接着,TaskTracker执行Map任务处理数据,最后汇总并传递给Reducer进行进一步处理,最终将结果写回到分布式文件系统中。
8651

被折叠的 条评论
为什么被折叠?



