一、概述
一个计算的流程如下图所示,对于一个简单的wordcount的计算中,总共要经历哪些文件呢?本文将详细探讨这个话题。文章可能会重新编辑,如果想浏览最新内容请访问原创博客:http://blog.youkuaiyun.com/bxyz1203/article/details/8057810。由于作者个人知识面有限,如果描述有错误或者遗留之处敬请谅解,再欢迎指出,我们共同进步。
本文分析的是0.19.1版本。其实无论是哪个版本(除了最新的2)都差不多。
mr各种文件存储的大致目录:
二、文件存储分析
1、Client提交任务之前对此任务的一些初始化工作。
一般会在{mapred.system.dir}目录中写入job.jar、job.xml、job.split文件。
2、JobTracker初始化job的时候会从hdfs中拷贝job.xml、job.split文件,为了存储JobHistory日志及获得数据分片等一些数据。
在本地{m