- 博客(7)
- 收藏
- 关注
原创 Hive视图与索引
在 Hive 中可以使用创建视图,如果已存在具有相同名称的表或视图,则会抛出异常,建议使用预做判断。视图是只读的,不能用作 LOAD / INSERT / ALTER 的目标在创建视图时候视图就已经固定,对基表的后续更改(如添加列)将不会反映在视图;删除基表并不会删除视图,需要手动删除视图;视图可能包含 ORDER BY 和 LIMIT 子句。如果引用视图的查询语句也包含这类子句,其执行优先级低于视图对应字句。
2024-06-03 22:49:55
291
原创 Hive内置函数
说明: 求近似的第pth个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。比如,M是值为{‘f’ -> ‘foo’, ‘b’ -> ‘bar’, ‘all’ -> ‘foobar’}的map类型,那么M[‘all’]将会返回’foobar’说明: count(*)统计检索出的行的个数,包括NULL值的行;比如,A是个值为[‘foo’, ‘bar’]的数组类型,那么A[0]将返回’foo’,而A[1]将返回’bar’说明: sum(col)统计结果集中col的相加的结果;
2024-06-03 11:55:10
931
原创 Hive高级操作
lag(列名,往前的行数,[行数为null时的默认值,不指定为null]),可以计算用户上次购买时间,或者用户下次购买时间。ntile(n) 把有序分区中的行分发到指定数据的组中,各个组有编号,编号从1开始,对于每一行,ntile返回此行所属的组的编号。over()函数中如果不使用这三个函数,窗口大小是针对查询产生的所有数据,如果指定了分区,窗口大小是针对每个分区的数据。我们在使用over()窗口函数时,over()函数中的这三个函数可组合使用也可以不使用。搭配分析函数时,分析函数按照这个范围进行计算的。
2024-06-03 11:52:46
630
原创 Hive 元数据
元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在建表的时候,用户还需 要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。删除该表并不会删除掉这 份数据,不过描述表的元数据信息会被删除掉。在删除表的时候,内部表的元数据和数据会被一起删除,而外 部表只删除元数据,不删除数据。
2024-05-23 15:55:49
973
1
原创 第三章 Hive数据存储模型
外部表的真实数据不被Hive管理,当删除一张内部表,元数据及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。在外部表(原始日志表)的基础上 做大量的统计分析,用到的中间表、结果表使用内部表存储,数据过 SELECT+INSERT 进入内部表。在建表的时候,用户还需 要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,(2)EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时可以指定一个指向实 际数据的路径(LOCATION),
2024-03-15 23:58:41
1243
1
原创 第二章 hive环境配置
rw-r--r--. 1 root root 609556480 3 月 21 15:41 mysql-5.7.28- 1.el7.x86_64.rpm-bundle.tar。libaio.so.1(LIBAIO_0.1)(64bit) 被 mysql-community-server-5.7.28- 1.el7.x86_64 需要。libaio.so.1(LIBAIO_0.4)(64bit) 被 mysql-community-server-5.7.28- 1.el7.x86_64 需要。
2024-03-14 12:15:36
1623
1
原创 第 1 章 Hive 数据仓库
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类SQL查询功能。
2024-03-14 12:09:33
1821
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人