上一篇博客介绍了Hive的蚂蚁森林实战案例,本篇博客是关于谷粒影音案例的实战。
数据结构
我们先看一下拿到的表以及字段。有两张表,第一张是视频表gulivideo_orc,第二张是用户表gulivideo_user_orc。具体数据结构如下表所示:


字段汇总如下:
Table: gulivideo_orc
字段:
videoid, uploader, age, category, length,
views, rate, ratings, comments, relatedId
Table: gulivideo_user_orc
字段:
uploader, videos, friends
需求描述
现在需要统计硅谷影音视频网站的常规指标。我们一个个来看一下。
① 统计视频观看数 Top10
select videoid, views
from gulivideo_orc
order by views desc
limit 10;
② 统计视频类别热度 Top10
这里需要说明的是:对热度的定义。本题将采用某类视频的个数作为热度,当然观看次数作为热度也可以。
分两步走。
1)使用 udtf 函数,将类别那一列炸裂开。
select videoid, category_name
from gulivideo_orc
lateral view explode(category) temp_category as category_name; t1
2) 按照category_name进行分组,统计每种类别的视频的总数,按照该总数进行排序,取前10名。
select category_name, count(*) category_count
from (
select videoid

本篇博客聚焦于Hive在谷粒影音案例中的实战应用,包括统计视频观看数Top10、视频类别热度Top10、各类别视频个数、视频观看数Top20及其类别、加粗视频关联类别排名以及上传视频最多的用户及其视频观看次数排名等关键指标的计算方法和步骤。
最低0.47元/天 解锁文章
922

被折叠的 条评论
为什么被折叠?



