大数据之Hive之扩展项目Youtube案例<一>

最新推荐文章于 2024-11-07 15:04:43 发布

原创

最新推荐文章于 2024-11-07 15:04:43 发布 · 1.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

本文通过一个YouTube大数据分析项目，介绍了Hive中的order by、sort by、distribute by、cluster by等概念，以及行转列、列转行、ORC存储和分桶等操作。项目涉及视频和用户表的数据结构、数据清洗与分析技术选型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：

统计Youtube视频网站的常规指标，各种TopN指标：

--统计视频观看数Top10

--统计视频类别热度Top10

--统计视频观看数Top20所属类别包含这Top20视频的个数

--统计视频观看数Top50所关联视频的所属类别Rank

--统计每个类别中的视频热度Top10

--统计每个类别中视频流量Top10

--统计上传视频最多的用户Top10以及他们上传的视频

--统计每个类别视频观看数Top10

二、知识储备梳理

2.1、order by，sort by，distribute by，cluster by

背景表结构

在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有3个字段，分别为personId标识某一个人，company标识一家公司名称，money标识该公司每年盈利收入（单位：万元人民币）

personId	company	money
p1	公司1	100
p2	公司2	200
p1	公司3	150
p3	公司4	300

建表导入数据：

create table company_info(

personId string,

company string,

money float

)row format delimited fields terminated by "\t"

load data local inpath “company_info.txt” into table company_info;

create table company_info(

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

morexyoung

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)

微信搜：import_bigdata，大数据领域硬核原创作者

07-25

4245

????欢迎关注博客主页：https://blog.youkuaiyun.com/u013411339 ????欢迎点赞 ???? 收藏 ⭐留言 ???? ，欢迎留言交流！ ????本文由【王知无】原创，首发于优快云博客！声明：本篇博客在我之前发表的文章基础上进行了大量更新，旨在给大数据领域的新人提供一份相识的，未来天花板较高的学习路线。在原文的基础上，新增了大数据最火热方向的详细学习路径，例如Flink和Spark的详细学习路径。并且在面试部分进行了整理，将过去我个人面试超过2000+人次的经历进行了系统

大数据开发是做什么的？怎样入门？

weixin_51689029的博客

11-11

8758

我们现在正处于“互联网+”的时代，将互联网和传统行业融合，往往可以创造出1+1＞2的效果。这种1+1的模式，在编程语言的使用上也通用，比如Python+大数据开发，就可以在数字化经济中发挥巨大作用。目前，数字经济成为全球经济增长新动能，而我国的数字经济规模在世界上排行第二！从以量级计算的数据中找到背后的巨大价值至关重要，在此背景下，数字人才成为我国经济全面数字化转型的第一资源和核心驱动力！而将Python作为工具，大数据开发作为目的的Python+大数据开发人才便是当下企业所需人才之一！

参与评论您还未登录，请先登录后发表或查看评论

大数据技术之Hive实战——Youtube项目（二）

xiaoyaGrace的博客

12-02

714

三、项目原始数据youtube在此下载：https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ3.1、数据结构3.1.1、视频表这里写图片描述这里写图片描述3.1.2、用户表这里写图片描述3.2 原始数据存放地HDFS 目录：视频数据集：/youtube/video/2008用户数据集：/youtube/users/20083.3、技术选型Hadoop ...

大数据之Hive之扩展项目Youtube案例<二>

morexyoung的博客

12-27

623

该项目的pom.xml文件： xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.z youtube 0.0.1-SNAPSHOT jar yout

Hive 的综合案例

weixin_39953756的博客

07-10

1404

补充：hive自带的时间函数Unixtime(时间分为两类)将时间转换为时间戳，方便用来求两个时间点的时间间隔；-》常见：2015-08-31 00:04:37-》Unix timestamp，以格林威治时间为基准-》hive自带函数：unix_timestamp，from_unixtime-》场景：（2015-08-31 00:04:37和2015-09-28 11:04:37时间差）-》查看两...

大数据之Hive（四）：hive综合案例

汪雯琦的博客

03-14

1334

文章目录4.4 hive综合案例 4.4 hive综合案例内容推荐数据处理需求根据用户行为以及文章标签筛选出用户最感兴趣(阅读最多)的标签相关数据 user_id article_id event_time 11,101,2018-12-01 06:01:10 22,102,2018-12-01 07:28:12 33,103,2018-12-01 07:50...

Hive SQL综合案例

weixin_42073629的博客

09-24

2096

一 Hive SQL练习之影评案例案例说明现有如此三份数据： 1、users.dat 数据格式为： 2::M::56::16::70072，共有6040条数据对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String 对应字段中文解释：用户id，性别，年龄，职业，邮政编码 2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children's|Fa

大数据之Hive之扩展项目Youtube案例<三>

morexyoung的博客

12-27

1349

3.5、准备工作3.5.1、创建表创建表：youtube_ori，youtube_user_ori，创建表：youtube_orc，youtube_user_orcyoutube_ori：create table youtube_ori( videoId string, uploader string, age int, category array, length

视频数据挖掘：大数据在金融决策中的应用案例分析

[视频数据挖掘：大数据在金融决策中的应用案例分析](https://media.sproutsocial.com/uploads/2021/12/youtube-live-super-chat.jpg) # 摘要随着大数据时代的到来，视频数据挖掘在金融分析中的应用已成为金融科技...

Hive综合应用示例

qq_41081716的博客

11-07

105

11、hive综合应用示例：json解析、窗口函数应用（连续登录、级联累加、topN）、拉链表应用_hive综合应用示例:json解析、窗口函数应用(连续登录、级联累加、topn)、拉链表应-优快云博客

大数据练手项目——Youtube数据源

10-28

大数据练手项目——Youtube数据源

大数据实战项目教程等

10-08

大数据实战项目教程等

Hive练习项目统计各种TOP的实战(数据和代码)

05-24

数据包括运行代码和数据类型，启动hive导入表和数据就可以运行结果

Hive综合案例练习（中级）第三十四题：销售订单首购和次购分析

yiluohan0307的专栏

04-09

247

Hive综合案例练习（中级）第三十四题：销售订单首购和次购分析

Hive案例-学生成绩表综合案例

potter

04-14

6458

元数据：course数据：1,数据库 2,数学 3,信息系统 4,操作系统 5,数据结构 6,数据处理student数据：95002,刘晨,女,19,IS 95017,王风娟,女,18,IS 95018,王一,女,19,IS 95013,冯伟,男,21,CS 95014,王小丽,女,19,CS 95019,邢小丽,女,19,IS 95020,赵钱,男,21,IS 95003,王敏,女,22,MA ...

《Hive 7》--hive综合案例：用户画像

yk_3215123的博客

07-21

930

用户画像： --------------------------------------------------------------------------------------------------------------------------- 用户id 下单时间修改日期地址 ...

Hive案例学生成绩表综合案例

Allen的博客

08-26

3138

首先给出各个表的数据 •表1 学生表 <学号,姓名,性别,年龄,系> - <Sno,Sname,Ssex,Sage,Sdepartment> 95001,李勇,男,20,CS 95002,刘晨,女,19,IS 95003,王敏,女,22,MA 95004,张立,男,19,IS 95005,刘刚,男,18,MA 95006,孙庆,男,23,CS •表2 课程表<课程ID...

大数据框架之Hive：第7章综合案例练习（初级）

yiluohan0307的专栏

03-09

2766

大数据框架之Hive：第7章综合案例练习（初级）

大数据之hive第11章hive实战尚硅谷