MapReduce
some_321
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce程序-tips
1,Configuration配置文件只有在main或者是run方法中设置才有效; 在map或reduce中只能通过context.getConf()方法获取该Job的配置文件,从而读取常量值。注:千万不能在map或reduce中修改configuration,虽然不报错,但这样是改不了值的补充:类的静态常量与Configuration设置常量的功能是一样的,但前者只能保留...原创 2013-03-19 16:28:25 · 109 阅读 · 0 评论 -
MapReduce定制Writable类型
一、《Hadoop权威指南》一书中的示例,测试了一下。定制的Writable类型:TextPair功能:存储一对Text对象。代码如下:package testWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;import java.i...2013-04-07 17:01:07 · 226 阅读 · 0 评论 -
MapReduce实现二次排序及GroupingComparator的误区
之前在网上看到了一篇使用MapReduce实现二次排序的博客,自己尝试实现了,并测试成功,代码有所改动。链接如下:http://blog.youkuaiyun.com/zyj8170/article/details/7530728 所谓的二次排序:对Key和Val都进行排序(比如升序),并输出。对Key的自动排序,MapReduce可以替我们解决,但是同时对Val进行排序,则需要其他的做法。...2013-04-17 11:51:48 · 428 阅读 · 0 评论 -
MR实现将同一个key的内容分配到同一个输出文件
MapReduce程序默认的输出文件个数:首先,根据setNumReduceTasks(int num)这个方法,其次,根据Map的输出文件个数。一般情况下,同一个key的数据,可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历,则需要将包含该key的所有文件作为输入文件。当数据比较庞大时,这样的操作会浪费资源。如果同一个Key的所有的value...2013-05-15 18:17:08 · 549 阅读 · 0 评论 -
MapReduce,组合式,迭代式,链式(转载)
MapReduce,组合式,迭代式,链式 前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,...原创 2013-07-23 10:08:01 · 150 阅读 · 0 评论 -
《Hadoop权威指南》——第七章MapReduce的类型与格式
输入类FileInputFormatFileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。1,1基本的输入通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。1,2有选择的输入如果需要排除特定文件,可以使用setInputPathFilter()方法设置一个过滤器。注:FileInpu...2013-09-18 14:37:21 · 212 阅读 · 0 评论
分享