题目:
20170308,小强,小牛斗地主,22,360手机助手,0.2版本,北京
20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,16,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,18,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,19,360手机助手,0.4版本,北京
20170308,小强,小牛斗地主,15,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,8,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,5,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,6,360手机助手,0.1版本,北京
20170309,tom,小牛斗地主,10,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,12,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,11,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,9,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,23,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,22,360手机助手,0.2版本,北京
20170309,tom,小牛斗地主,14,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,13,360手机助手,0.3版本,北京
20170309,tom,小牛斗地主,16,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,18,360手机助手,0.4版本,北京
20170309,tom,小牛斗地主,19,360手机助手,0.5版本,北京
20170309,tom,小牛斗地主,15,360手机助手,0.4版本,北京
字段信息:
用户ID,用户名,游戏名,小时,数据来源,游戏版本,用户所在地
id, name, game, hour, source, version, city
题目要求:
在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户
例如:
20170308,小强,小牛斗地主,10,360手机助手,0.2版本,北京
20170308,小强,小牛斗地主,13,360手机助手,0.3版本,北京,0.2版本
20170308,小强,小牛斗地主,14,360手机助手,0.3版本,北京
20170308,小强,小牛斗地主,15,360手机助手,0.4版本,北京,0.3版本
用户“小强”在10点钟是0.2版本,但是到了13点变成了0.3版本,那么就在13点钟这条记录的后面追加一个字段值0.2版本,也就是上个版本的版本号
当然,为什么从10点直接到了13点,因为11点和12点的数据没有收集到。
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import cn.ssy.versions.homework.MyGroup;
import cn.ssy.versions.homework.VersionsBean1;
public class VersionsMR1 {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();