统计用户在同一地点停留时长

最新推荐文章于 2022-05-20 18:40:48 发布

原创

最新推荐文章于 2022-05-20 18:40:48 发布 · 2.1k 阅读

11 ·

CC 4.0 BY-SA版权

描述：

对同一个用户，在同一个位置，连续的多条记录进行合并
合并原则：开始时间取最早的，停留时长加和

字段：
userID, locationID, time, duration

数据样例：
user_a  location_a  2018-01-01 08:00:00 60
user_a  location_a  2018-01-01 09:00:00 60
user_a  location_a  2018-01-01 11:00:00 60
user_a  location_a  2018-01-01 12:00:00 60

输出结果：
user_a  location_a  2018-01-01 08:00:00 120
user_a  location_a  2018-01-01 11:00:00 120

测试数据：

user_a  location_a  2018-01-01 08:00:00 60
user_a  location_a  2018-01-01 09:00:00 60
user_a  location_a  2018-01-01 11:00:00 60
user_a  location_a  2018-01-01 12:00:00 60
user_a  location_b  2018-01-01 10:00:00 60
user_a  location_c  2018-01-01 08:00:00 60
user_a  location_c  2018-01-01 09:00:00 60
user_a  location_c  2018-01-01 10:00:00 60
user_b  location_a  2018-01-01 15:00:00 60
user_b  location_a  2018-01-01 16:00:00 60
user_b  location_a  2018-01-01 18:00:00 60

结果数据：

user_a  location_a  2018-01-01 08:00:00 120
user_a  location_a  2018-01-01 11:00:00 120
user_a  location_b  2018-01-01 10:00:00 60
user_a  location_c  2018-01-01 08:00:00 180
user_b  location_a  2018-01-01 15:00:00 120
user_b  location_a  2018-01-01 18:00:00 60

实现思想

以用户id和位置id为分组，以开始时间升序排序
在reduce中进行判断，在每一组中判断，前后两条数据是否是连续的（前一条数据的开始时间+持续时间，是否等于后一条的开始时间），如果连续则合并持续时间，最后输出最早的开始时间和持续时间和

实现代码

package exam_answer.two;

import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.ha