
hadoop
qingen123
生命不息 奋斗不止 LINUX爱好者 世界因你的敲打而改变
展开
-
hadoop stream
1 hadoop streaming[html] view plaincopyHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如, $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/ha转载 2014-11-06 15:13:11 · 1019 阅读 · 0 评论 -
Hadoop中VIntWritable编码方式解析
最近因为实验室的云计算项目,开始学习Hadoop,有时间就记录一下自己在学习过程中的一些小收获吧。《Hadoop权威指南》在序列化这一节有个例子程序,叫做TextPair,代码略长,就不贴上来了,它implements了WritableComparable,将两个Text对象打包到一起。TextPair以静态内部类的形式实现了WritableComparator,这样,不从数据转载 2016-03-29 14:47:41 · 1672 阅读 · 0 评论 -
MapReduce中的二次排序
在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下图。在图中,数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为转载 2016-03-31 12:54:37 · 895 阅读 · 0 评论 -
MapReduce的分区 与 分组
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721问题描述:输入文件格式如下:name1 2name3 4name1 6name1 1name3 3转载 2016-03-29 11:45:10 · 4462 阅读 · 0 评论