MapReduce三次排序

这篇博客介绍了如何利用MapReduce解决一个数据处理问题,即在海量数据中进行三次排序:首先按用户ID,然后按时间,最后按游戏版本。通过案例展示了如何处理有版本变动的记录,追加前一版本的信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:
20170308,小强,小牛斗地主,22,360手机助手,0.2版本,北京
20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,16,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,18,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,19,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,15,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,8,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,5,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,6,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,10,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,12,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,11,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,9,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,23,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,22,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,14,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,13,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,16,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,18,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,19,360手机助手,0.5版本,北京
20170309,tom,小牛斗地主,15,360手机助手,0.4版本,北京
字段信息:
用户ID,用户名,游戏名,小时,数据来源,游戏版本,用户所在地
id, name, game, hour, source, version, city
题目要求:
在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户
例如:
20170308,小强,小牛斗地主,10,360手机助手,0.2版本,北京
20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京,0.2版本
20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,15,360手机助手,0.4版本,北京,0.3版本
用户“小强”在10点钟是0.2版本,但是到了13点变成了0.3版本,那么就在13点钟这条记录的后面追加一个字段值0.2版本,也就是上个版本的版本号
当然,为什么从10点直接到了13点,因为11点和12点的数据没有收集到。

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import cn.ssy.versions.homework.MyGroup;
import cn.ssy.versions.homework.VersionsBean1;

public class VersionsMR1 {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值