
一步一步Hadoop
RangerWolf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[Hadoop] 从WordCount 入门
Hadoop就不介绍了~ 之后应该会补充一个如何在单机Ubuntu上面部署hadoop的文章。不过网上也一大把了~ 先贴一个可以用的WordCount代码 package org.myorg; import java.io.IOException; import java.util.*; import org.apache.hadoop...2014-09-09 22:37:07 · 178 阅读 · 0 评论 -
[Hadoop] 新API容易遇到的一个问题: expected LongWritable recieved Text
我们在之前一篇WordCount的文章里面使用了下面这条语句: job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); 这本身不起眼的一句话,其实有一个容易错的地方。 如果你遇到 写道 Type mismatch in key fro...2014-09-10 08:17:46 · 310 阅读 · 0 评论 -
[Hadoop] TopK的一个简单实现
题外话: 《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~ 进入正题。 这个题目是《Hadoop in Action》 上面的一道题目,求出Top K的值。 我自己随便弄了一个输入文件: g 445 a 1117 b 222 c ...原创 2014-09-22 11:54:00 · 351 阅读 · 0 评论 -
[Hadoop] 练习:使用Hadoop计算两个向量的内积
同样是<Hadoop in Action> 上面的练习~ 练习: 计算两个向量的内积,比如: v1 = [1 2 3] v2 = [2 3 4] 内积 = 2 + 5 + 12 = 19 我的输入文件: 1.0 2.0 3.0 4.0 1 1 即: v1 = [1 3 1] v2 = [2 4 1] 结果: 15 思路: 每行读取两个向...2014-09-22 13:30:26 · 335 阅读 · 0 评论 -
[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用
注意: 1. 本人目前使用的版本是1.2.1,因此ChainMapper使用的还是old api。 2. 老的API之中,只支持 N-Mapper + 1-Reducer的模式。 Reducer不在链式任务最开始即可。 比如: Map1 -> Map2 -> Reducer -> Map3 -> Map4 (不确定在新版的API之中是否支持 N-Red...2014-09-23 11:02:47 · 259 阅读 · 0 评论 -
[Hadoop]使用Hadoop进行ReduceSideJoin
Note: 1. 内容主要参考<Hadoop in Action> Chapter 5.2 2. 代码主要参考: http://qindongliang.iteye.com/blog/2052842 3. 这是基于老的API的实现,这种方法并不高效简洁 数据:(原始数据可以从movielens-1m里面去要,这里将原始数据进行了简单的修改方便演示与自测) 文件: u...2014-09-24 17:09:54 · 232 阅读 · 0 评论 -
[Hadoop] 分布式Join : Replicated Join
上一篇文章说的ReduceSide Join的一个缺点就是,在map方法之中,只对数据加了tag、提取了groupkey,没有做任何的数据过滤,这样在map-reduce之中的shuffle过程会造成大量的 磁盘IO使得效率降低。 这次使用的是Replicated Join,完成的任务跟上次一样. 它有一个前提:需要关联在一起的两个文件,其中一个文件比较小,至少能放到内存之中。 ...2014-09-25 15:41:41 · 469 阅读 · 0 评论