描述:
对同一个用户,在同一个位置,连续的多条记录进行合并
合并原则:开始时间取最早的,停留时长加和
字段:
userID, locationID, time, duration
数据样例:
user_a location_a 2018-01-01 08:00:00 60
user_a location_a 2018-01-01 09:00:00 60
user_a location_a 2018-01-01 11:00:00 60
user_a location_a 2018-01-01 12:00:00 60
输出结果:
user_a location_a 2018-01-01 08:00:00 120
user_a location_a 2018-01-01 11:00:00 120
测试数据:
user_a location_a 2018-01-01 08:00:00 60
user_a location_a 2018-01-01 09:00:00 60
user_a location_a 2018-01-01 11:00:00 60
user_a location_a 2018-01-01 12:00:00 60
user_a location_b 2018-01-01 10:00:00 60
user_a location_c 2018-01-01 08:00:00 60
user_a location_c 2018-01-01 09:00:00 60
user_a location_c 2018-01-01 10:00:00 60
user_b location_a 2018-01-01 15:00:00 60
user_b location_a 2018-01-01 16:00:00 60
user_b location_a 2018-01-01 18:00:00 60
结果数据:
user_a location_a 2018-01-01 08:00:00 120
user_a location_a 2018-01-01 11:00:00 120
user_a location_b 2018-01-01 10:00:00 60
user_a location_c 2018-01-01 08:00:00 180
user_b location_a 2018-01-01 15:00:00 120
user_b location_a 2018-01-01 18:00:00 60
实现思想
- 以用户id和位置id为分组,以开始时间升序排序
- 在reduce中进行判断,在每一组中判断,前后两条数据是否是连续的(前一条数据的开始时间+持续时间,是否等于后一条的开始时间),如果连续则合并持续时间,最后输出最早的开始时间和持续时间和
实现代码
package exam_answer.two;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.ha