
hive project guliViedo
hao难懂
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
01分析数据需求
1.需求分析 --统计视频观看数Top10 --统计视频类别热度Top10 --统计视频观看数Top20所属类别 --统计视频观看数Top50所关联视频的所属类别Rank --统计每个类别中的视频热度Top10 --统计每个类别中视频流量Top10 --统计上传视频最多的用户Top10以及他们上传的视频 --统计每个类别视频观看数Top10 2.数据结构 (1)视频表 ---字段 ---备注...原创 2019-08-18 19:26:39 · 241 阅读 · 0 评论 -
02数据清洗
1.ETL之ETLUtil public class ETLUtil { public static String oriString2ETLString(String ori){ StringBuilder etlString = new StringBuilder(); String[] splits = ori.split("\t"); if(splits.length <...原创 2019-08-18 19:26:49 · 263 阅读 · 0 评论 -
03准备工作
1.创建表 1.1 所需表 gulivideo_ori,gulivideo_user_ori, gulivideo_orc,gulivideo_user_orc。 1.2 代码 create table gulivideo_ori( videoId string, uploader string, age int, category array<string&g...原创 2019-08-18 19:26:59 · 147 阅读 · 0 评论 -
04具体分析
1.统计视频观看数Top10 思路: 使用order by按照views字段做一个全局排序即可,同时我们设置只显示前10条。 代码: select videoId, uploader, age, category, length, views, rate, ratings, comments from gulivideo_orc order by views desc limit 10...原创 2019-08-18 19:27:09 · 271 阅读 · 0 评论