1. 引言
在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签。所以,为了计算曝光PV,我们得另外创建视图。
分析需求:
- 每个DSP上的曝光PV,标签覆盖的曝光PV;
- 累计曝光PV,累计标签覆盖曝光PV
相当于cube(dsp, tag) + measure(pv)
,HiveQL如下:
select dsp, tag, count(*) as pv
from ad_view
where view = 'view' and day_time between '2016-04-18' and '2016-04-24'
group by dsp, tag with cube;
现在问题来了:如何将原始表中的tags array<struct<tag:string,label:string,src:string&