窗口函数的概念
首先,需要认识到,窗口函数并不是只有 hive 才有的,SQL 语法标准中,就有窗口函数。 并且 mysql,oracle等数据库都实现了窗口函数。 而 hive 自带的窗口函数功能,则是对原有 hive sql 语法的补充和加强。
那么什么时候,会用到窗口函数
举两个小栗子:
排名问题:每个部门按业绩排名 topN 问题:
找出每个部门排名前 N 的员工进行奖励
面对这类需求,就需要使用窗口函数了。
窗口函数的基本语法如下:
<窗口函数>window_name over ( [partition by 字段...] [order by 字段...] [窗口子句] )
窗口函数可以拆分为【窗口+函数】
- 窗口:over(),指明函数要处理的数据范围
- 函数:指明函数计算逻辑
window_name:给窗口指定一个别名。 over:用来指定函数执行的窗口范围,如果后面括号中什么都不写,即over() ,意味着窗口包含满足where 条件的所有行,窗口函数基于所有行进行计算。 符号[] 代表:可选项; | : 代表二选一 partition by 子句: 窗口按照哪些字段进行分组,窗口函数在不同的分组上分别执行。分组间互相独立。 order by 子句:每个partition内部按照哪些字段进行排序,如果没有partition ,那就直接按照最大的窗口排序,且默认是按照升序(asc