MapReudce
杨大大慌
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MR的入门案例
MR的入门案例要求统计文件的数据并且排序去重a.txt12 123 34 1 5 345 23b.txt34 12345 34 1 3 5 57 4c.txt12 23 45 12 56 89 77 57MyDriverpackage com.qf.test;import org.apache.hadoop.conf.Configuration;import org.ap...原创 2019-09-05 10:23:00 · 909 阅读 · 0 评论 -
自定义数据类型
自定义数据类型hadoop中的数据类型就有 FloatWritable DoubleWritable Context Text IntWritable ShortWritable LongWritable ByteWritable 在处理一些问题时这些类型很明显是不够的,因此要...原创 2019-09-05 17:43:27 · 384 阅读 · 0 评论 -
job提交作业流程
job提交作业流程调用waitForCompletion每秒轮询作业进度,内部封装了submit()方法用于创建jobCommit的实例,jobCommit的实例实例会调用自己的submitJobInternal提交作业,如果状态有变化就将作业进度输出在控制台,如果失败也会将错误输出jobCommit会向ResourceManager申请一个id号用于MapReduce作业,同时检查输出路径...原创 2019-09-07 08:59:18 · 460 阅读 · 0 评论 -
自定义类型实现倒排
使用自定义类型实现倒排在MR中shuffle的排序是根据key值自动排序的,它的排序是根据key值升序排列。InvertedDriver驱动类package Inverted;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hado...原创 2019-09-08 15:33:41 · 150 阅读 · 0 评论 -
使用自定义类二次排序
二次排序驱动package erpai;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hado...原创 2019-09-08 17:38:49 · 200 阅读 · 0 评论 -
Hadoop分组函数的使用
Hadoop的分组函数的使用的注意事项Hadoop的分组函数可以继承WritableComparator,也可以继承RawComparator继承WritableComparator时必须写构造方法调用super(比较类的.class,true)继承WritableComparator若是系统有分类就不能使用会报错,就是反序列化不成功继承RawComparator要重写两个方法,根据需求...原创 2019-09-08 19:54:09 · 247 阅读 · 1 评论
分享