
hive project guliViedo
hao难懂
这个作者很懒,什么都没留下…
展开
-
01分析数据需求
1.需求分析--统计视频观看数Top10--统计视频类别热度Top10--统计视频观看数Top20所属类别--统计视频观看数Top50所关联视频的所属类别Rank--统计每个类别中的视频热度Top10--统计每个类别中视频流量Top10--统计上传视频最多的用户Top10以及他们上传的视频--统计每个类别视频观看数Top102.数据结构(1)视频表 ---字段 ---备注...原创 2019-08-18 19:26:39 · 237 阅读 · 0 评论 -
02数据清洗
1.ETL之ETLUtilpublic class ETLUtil { public static String oriString2ETLString(String ori){ StringBuilder etlString = new StringBuilder(); String[] splits = ori.split("\t"); if(splits.length <...原创 2019-08-18 19:26:49 · 259 阅读 · 0 评论 -
03准备工作
1.创建表1.1 所需表 gulivideo_ori,gulivideo_user_ori, gulivideo_orc,gulivideo_user_orc。1.2 代码 create table gulivideo_ori( videoId string, uploader string, age int, category array<string&g...原创 2019-08-18 19:26:59 · 145 阅读 · 0 评论 -
04具体分析
1.统计视频观看数Top10思路: 使用order by按照views字段做一个全局排序即可,同时我们设置只显示前10条。 代码: select videoId, uploader, age, category, length, views, rate, ratings, comments from gulivideo_orc order by views desc limit 10...原创 2019-08-18 19:27:09 · 264 阅读 · 0 评论