1.1 总结
这章阐述了如何执行一个MapReduce作业。你现在对JobConf对象有一个基本的理解,以及了解如何使用它通知框架你的作业需要的元素。
你已经看见如何去写mapper和reducer类,以及如何使用reporter对象,reporter对象能够提供足够的关于你的作业的运行时的信息。最后,输出块是非常重要的,通过它你可以知道什么时候和为什么你配置你的作业去reduce, 以及你需要使用多少个reducer。
作为一个优秀的Hadoop专家,你看到在mapper和reducer类中打开的文件是空的或者是短的,这毫不奇怪,因为你知道在关闭文件之后,框架才会刷新最后一个文件系统块的数据值到磁盘上。
在下一章,你会学习到如何设置一个多机器集群。
本文介绍了如何配置和执行MapReduce作业,包括JobConf对象的基本理解及其用途,mapper和reducer类的编写方法,以及如何利用reporter对象获取作业运行时的信息。此外,还讨论了输出块的重要性以及在多机器集群上的应用。
1万+

被折叠的 条评论
为什么被折叠?



