
mapreduce
文章平均质量分 82
qq_35488275
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce代码整理之wordcount
大家都说wordcount是mapreduce中的halloword,代码如下。 import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration原创 2017-03-06 11:10:07 · 414 阅读 · 0 评论 -
mapreduce代码整理之mywritable(自定义writable)
这个程序包含四个类: MyWritable.java 自定义mywritable 把(张三 李四)作为一个writable读入。 import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Text; import org.a原创 2017-03-13 15:10:48 · 902 阅读 · 0 评论 -
mapreduce代码整理之MyInputFormat(自定义InputFormat)
自定义的InputFormat可以更好的读入数据,用textinputformat就只能读取一行,本程序主要实现了读取多行的情况。 MboxFileFormat.java import java.io.IOException; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.InputSplit; im原创 2017-03-13 15:26:43 · 462 阅读 · 0 评论 -
mapreduce代码整理之简单的kmeans聚类
我们的目标是将如下坐标点分成两类,可以很清楚地看到这个数据可以很明确的分为两类。要分类的数据在kmeans.txt里,初始中心在cluster.center.conf.txt里,把这两个文件都上传到hdfs中。 Utils.java import java.io.IOException; import java.util.ArrayList; import java.util.List原创 2017-03-26 12:48:25 · 2459 阅读 · 1 评论 -
mapreduce代码整理之实现压缩输出减少网络传输
在mian函数里这样写public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.setStrings("mapred.tasktracker.reduce.tasks.maximum", "4"); conf.setClass("mapred.原创 2017-04-05 11:17:49 · 523 阅读 · 0 评论