统计用户在同一地点停留时长

描述:

对同一个用户,在同一个位置,连续的多条记录进行合并
合并原则:开始时间取最早的,停留时长加和

字段:
userID, locationID, time, duration

数据样例:
user_a  location_a  2018-01-01 08:00:00 60
user_a  location_a  2018-01-01 09:00:00 60
user_a  location_a  2018-01-01 11:00:00 60
user_a  location_a  2018-01-01 12:00:00 60

输出结果:
user_a  location_a  2018-01-01 08:00:00 120
user_a  location_a  2018-01-01 11:00:00 120

测试数据:

user_a  location_a  2018-01-01 08:00:00 60
user_a  location_a  2018-01-01 09:00:00 60
user_a  location_a  2018-01-01 11:00:00 60
user_a  location_a  2018-01-01 12:00:00 60
user_a  location_b  2018-01-01 10:00:00 60
user_a  location_c  2018-01-01 08:00:00 60
user_a  location_c  2018-01-01 09:00:00 60
user_a  location_c  2018-01-01 10:00:00 60
user_b  location_a  2018-01-01 15:00:00 60
user_b  location_a  2018-01-01 16:00:00 60
user_b  location_a  2018-01-01 18:00:00 60

结果数据:

user_a  location_a  2018-01-01 08:00:00 120
user_a  location_a  2018-01-01 11:00:00 120
user_a  location_b  2018-01-01 10:00:00 60
user_a  location_c  2018-01-01 08:00:00 180
user_b  location_a  2018-01-01 15:00:00 120
user_b  location_a  2018-01-01 18:00:00 60

实现思想

  1. 以用户id和位置id为分组,以开始时间升序排序
  2. 在reduce中进行判断,在每一组中判断,前后两条数据是否是连续的(前一条数据的开始时间+持续时间,是否等于后一条的开始时间),如果连续则合并持续时间,最后输出最早的开始时间和持续时间和

实现代码

package exam_answer.two;

import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.ha
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值