
Hive入门进阶
文章平均质量分 84
Hive相关组件的说明
天蓝_BlueSky
孜孜不倦,持之以恒!
展开
-
Hive的原理概述与安装
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。原创 2022-08-31 11:41:26 · 243 阅读 · 0 评论 -
Hive实战练习(包含数据集)
(1)要想统计 Music 类别中的视频热度 Top10,需要先找到 Music 类别,那么就需要将category 展开,所以可以创建一张表用于存放 categoryId 展开的数据。所以如果要 group by 类别,需要先将类别进行列转行(展开),然后再进行 count 即可。(2)我们需要按照类别 group by 聚合,然后 count 组内的 videoId 个数即可。(1)即统计每个类别有多少个视频,显示出包含视频最多的前 10 个类别。(3)统计对应类别(Music)中的视频热度。原创 2022-11-09 14:00:26 · 2353 阅读 · 1 评论 -
Hive中内部表、外部表、分区表、分桶表之间的关系
抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。中的数据不是Hive拥有或管理的,只管理表元数据的生命周期。而且外部表更为方便的是可以搭配location语法指定数据的路径。在Hive外部仍然可以访问实际数据。原创 2022-11-06 15:32:16 · 1345 阅读 · 0 评论 -
Hive分区表、分桶表练习(含数据集)
🏈当Hive表对应的数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段。示字段含义如下:count_date(统计日期),county(县),state(州),fips(县编码code),cases(累计确诊病。是一种用于优化查询而设计的表类型。现有6份数据文件,分别记录了《王者荣耀》中6种位置的英雄相关信息。指的是分区的字段值是基于查询结果自动推断出来的。指的是分区的字段值是由用户在加载数据的时候手动指定的。原创 2022-11-09 20:38:54 · 1084 阅读 · 0 评论