Hive实战 | 谷粒影音案例

本篇博客聚焦于Hive在谷粒影音案例中的实战应用,包括统计视频观看数Top10、视频类别热度Top10、各类别视频个数、视频观看数Top20及其类别、加粗视频关联类别排名以及上传视频最多的用户及其视频观看次数排名等关键指标的计算方法和步骤。

上一篇博客介绍了Hive的蚂蚁森林实战案例,本篇博客是关于谷粒影音案例的实战。

数据结构

我们先看一下拿到的表以及字段。有两张表,第一张是视频表gulivideo_orc,第二张是用户表gulivideo_user_orc。具体数据结构如下表所示:
12
字段汇总如下:

Table: gulivideo_orc
字段:
videoid, uploader, age, category, length, 
views, rate, ratings, comments, relatedId

Table: gulivideo_user_orc
字段:
uploader, videos, friends

需求描述

现在需要统计硅谷影音视频网站的常规指标。我们一个个来看一下。
① 统计视频观看数 Top10

select videoid, views
from gulivideo_orc
order by views desc
limit 10;

② 统计视频类别热度 Top10
这里需要说明的是:对热度的定义。本题将采用某类视频的个数作为热度,当然观看次数作为热度也可以。
分两步走。
1)使用 udtf 函数,将类别那一列炸裂开。

select videoid, category_name
from gulivideo_orc
lateral view explode(category) temp_category as category_name; t1

2) 按照category_name进行分组,统计每种类别的视频的总数,按照该总数进行排序,取前10名。

select category_name, count(*) category_count
from (
	select videoid
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值