
一步一步Hadoop
RangerWolf
这个作者很懒,什么都没留下…
展开
-
[Hadoop] 从WordCount 入门
Hadoop就不介绍了~ 之后应该会补充一个如何在单机Ubuntu上面部署hadoop的文章。不过网上也一大把了~ 先贴一个可以用的WordCount代码 package org.myorg; import java.io.IOException;import java.util.*; import org.apache.hadoop...2014-09-09 22:37:07 · 170 阅读 · 0 评论 -
[Hadoop] 新API容易遇到的一个问题: expected LongWritable recieved Text
我们在之前一篇WordCount的文章里面使用了下面这条语句: job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.class);这本身不起眼的一句话,其实有一个容易错的地方。 如果你遇到写道Type mismatch in key fro...2014-09-10 08:17:46 · 298 阅读 · 0 评论 -
[Hadoop] TopK的一个简单实现
题外话:《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~ 进入正题。 这个题目是《Hadoop in Action》 上面的一道题目,求出Top K的值。我自己随便弄了一个输入文件:g 445a 1117b 222c ...原创 2014-09-22 11:54:00 · 341 阅读 · 0 评论 -
[Hadoop] 练习:使用Hadoop计算两个向量的内积
同样是<Hadoop in Action> 上面的练习~ 练习:计算两个向量的内积,比如:v1 = [1 2 3]v2 = [2 3 4]内积 = 2 + 5 + 12 = 19 我的输入文件:1.0 2.03.0 4.01 1即:v1 = [1 3 1]v2 = [2 4 1]结果: 15 思路:每行读取两个向...2014-09-22 13:30:26 · 326 阅读 · 0 评论 -
[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用
注意:1. 本人目前使用的版本是1.2.1,因此ChainMapper使用的还是old api。 2. 老的API之中,只支持 N-Mapper + 1-Reducer的模式。 Reducer不在链式任务最开始即可。比如:Map1 -> Map2 -> Reducer -> Map3 -> Map4 (不确定在新版的API之中是否支持 N-Red...2014-09-23 11:02:47 · 243 阅读 · 0 评论 -
[Hadoop]使用Hadoop进行ReduceSideJoin
Note: 1. 内容主要参考<Hadoop in Action> Chapter 5.22. 代码主要参考: http://qindongliang.iteye.com/blog/20528423. 这是基于老的API的实现,这种方法并不高效简洁 数据:(原始数据可以从movielens-1m里面去要,这里将原始数据进行了简单的修改方便演示与自测)文件: u...2014-09-24 17:09:54 · 227 阅读 · 0 评论 -
[Hadoop] 分布式Join : Replicated Join
上一篇文章说的ReduceSide Join的一个缺点就是,在map方法之中,只对数据加了tag、提取了groupkey,没有做任何的数据过滤,这样在map-reduce之中的shuffle过程会造成大量的 磁盘IO使得效率降低。 这次使用的是Replicated Join,完成的任务跟上次一样.它有一个前提:需要关联在一起的两个文件,其中一个文件比较小,至少能放到内存之中。 ...2014-09-25 15:41:41 · 450 阅读 · 0 评论