Hadoop
liushidexing
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop MapReduce工作原理
http://sishuok.com/forum/blogPost/list/5965.html MapReduce工作原理 MapReduce 角色 •Client :作业提交发起者。 •JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。 •TaskTracker:保持JobTracker通信转载 2014-12-05 18:32:34 · 773 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,转载 2014-12-08 14:32:56 · 491 阅读 · 0 评论 -
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么
阅读本文可以带着下面问题: 1.map和reduce的数量过多会导致什么情况? 2.Reduce可以通过什么设置来增加任务个数? 3.一个task的map数量由谁来决定? 4.一个task的reduce数量由谁来决定? 一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的 goalSize = tot转载 2014-12-09 10:31:38 · 621 阅读 · 0 评论 -
python hadoop 在streaming中获取文件名的方法
在hadoop的开发中,经常要根据streaming中不同的文件名做不同的处理,需要获取文件名,可参考java 版本中获取文件名的方法: 1、hadoop上在java开发可用: FileSplit fileSplit = (FileSplit)reporter.getInputSplit(); String fileName = fileSplit.getPat原创 2015-08-14 11:18:42 · 962 阅读 · 0 评论
分享