1.需求
已知用户的月度点击次数信息,如下图,第一列用户名称,第二列月份第三列该月用户点击次数,要求扩充维度,每行增加两列信息,当月包括当月前最大点击次数和当月包括当月前总点击次数。
2.hive sql的统计分析
- 创建月度点击统计表
CREATE TABLE use_click_month(
use_name string,
date_month string,
count int
)row format delimited fields terminated by ',';
- 加载数据
LOAD DATA LOCAL INPATH '/home/hadoop/data/click/click.log' OVERWRITE INTO TABLE use_click_month ;
- 方法一:使用开窗函数进行数据分析
select use_name,date_month,count,
max(count) over(partition by use_name order by date_month) as maxcount,
sum(count) over(partition by use_name order by date_month) as sumcount
from use_click_month;
# 执行结果
A 201807 19 19 19
A 201808 13 19 32
A 201809 15 19 47
A 201810 34 34 81
A 201811 40