零、本讲学习目标
- 了解Spark SQL内置函数
- 学会使用自定义函数
- 学会自定义聚合函数
- 学会使用开窗函数
一、Spark SQL内置函数
(一)内置函数概述
1、10类内置函数
- Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。这些函数主要分为10类:UDF函数、聚合函数、日期函数、排序函数、非聚合函数、数学函数、混杂函数、窗口函数、字符串函数、集合函数,大部分函数与Hive中相同。
2、两种使用方式
- 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。
(二)内置函数演示
- 读取HDFS上的
people.json
,得到数据帧,执行命令:val peopleDF = spark.read.json("hdfs://master:9000/input/people.json")