目录
3.2.1 Function(arg1,..., argn)
3.2.2 OVER [PARTITION BY <...>]
一、前言
在讲Flink的时候,我们聊到了窗口函数的使用,了解了窗口函数的作用,本篇来详细聊聊hive中窗口函数的使用。
二、hive 窗口函数概述
窗口函数(Window functions)也叫做开窗函数、OLAP函数,其最大特点是:输入值是从SELECT语句的结果集中的一行或多行的“窗口”中获取的。如果函数具有OVER子句,则它是窗口函数。
窗口函数可以简单地解释为类似于聚合函数的计算函数,但是通过GROUP BY子句组合的常规聚合会隐藏正在聚合的各个行,最终输出一行,窗口函数聚合后还可以访问当中的各个行,并且可以将这些行中的某些属性添加到结果集中。
结合下图,可以对比理解下普通聚合函数与窗口函数的作用;

我们不妨通过两个sql来直观感受下普通聚合函数与窗口函数的差异所在;

本文详细介绍了Hive窗口函数的使用,包括窗口函数的概念、语法、参数说明及各种函数的应用,如聚合、排序、分析函数等。通过实例演示,展示了如何利用窗口函数进行数据聚合、排序和分析,如求每个用户总PV数、Top3 PV等。文章还提及了抽样函数的使用,如随机抽样、块抽样和基于分桶表的抽样,帮助理解在大数据处理中如何高效获取数据子集。
订阅专栏 解锁全文
3225

被折叠的 条评论
为什么被折叠?



