0803-SparkSQL_sql0803-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_35199832/article/details/103585672

SparkSQL是Spark的模块，提供DataFrame和DataSet编程抽象，具备优化的执行计划和高效率。DataFrame类似传统数据库表格，记录数据结构，支持SQL和DSL操作。DataSet是强类型的数据表对象。SparkSession整合了SQLContext和HiveContext的功能。DataFrame可从Spark源、RDD和Hive Table创建。转换操作包括RDD、DataFrame和DataSet间的相互转换，以及UDF和UDAF的使用。SparkSQL支持多种数据源，如JSON、Parquet和JDBC，并能与HIVE集成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一章 SparkSQL 概述

1.1 什么是SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。
Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！

1.2 SparkSQL特点

1.3 DataFrame

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema(表头)。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。

在这里插入图片描述

上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待，DataFrame也是懒执行的。

性能上比RDD要高，主要原因：
优化的执行计划：查询计划通过Spark catalyst optimiser进行优化。

1.4 DataSet

可以理解为表对象

样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称。

Dataframe是Dataset的特列，DataFrame=Dataset[Row] ，所以可以通过as方法将Dataframe转换为Dataset。Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息我都用Row来表示。

DataSet是强类型的。比如可以有Dataset[Car]，Dataset[Person].

DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的，比如你可以对一个String进行减法操作，在执行的时候才报错，而DataSet不仅仅知道字段，而且知道字段类型，所以有更严格的错误检查。就跟JSON对象和类对象之间的类比。

在这里插入图片描述

第二章 SparkSQL 编程

2.1 SparkSession

在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。
SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

        // SparkSQL的新入口 SparkSession
        val session: SparkSession = SparkSession.builder()
            .appName("Demo01_SparkSQLHelloWorld")
            .master("local[*]")
            .getOrCreate()

2.2 DataFrame

2.2.1 创建

在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口，创建DataFrame有三种方式：

通过Spark的数据源进行创建；

从一个存在的RDD进行转换；

还可以从Hive Table进行查询返回。

2.2.1.1 从Spark数据源进行创建

查看Spark数据源进行创建的文件格式

scala> spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile

读取json文件创建DataFrame

scala> val df = spark.read.json("/opt/module/spark/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

展示结果

scala> df.show
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

2.2.1.2 从RDD进行转换

2.2.1.3 从HIVE Table进行查询返回

2.2.2 SQL语法风格

创建一个DataFrame

scala> val df = spark.read.json("/opt/module/spark/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

对DataFrame创建一个临时表

scala> df.createOrReplaceTempView("people")

通过SQL语句实现查询全表

scala> val sqlDF = spark.sql("SELECT * FROM people")
sqlDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

结果展示

scala> sqlDF.show
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

2.2.3 DSL语法风格

创建一个DateFrame

scala> spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile

查看DataFrame的Schema信息

scala> df.printSchema
root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)

只查看”name”列数据

scala> df.select("name").show()
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

查看”name”列数据以及”age+1”数据

scala> df.select($"name", $"age" + 1).show()
+-------+---------+
|   name|(age + 1)|
+-------+---------+
|Michael|     null|
|   Andy|       31|
| Justin|       20|
+-------+---------+

查看”age”大于”21”的数据

scala> df.filter($"age" > 21).show()
+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+

按照”age”分组，查看数据条数

scala> df.groupBy("age").count().show()
+----+-----+
| age|count|
+----+-----+
|  19|     1|
|null|     1|
|  30|     1|
+----+-----+

2.3 DataSet

2.3.1 创建

2.3.1.1 由样例类创建

创建一个样例类

scala> case class Person(name: String, age: Long)
defined class Person

创建DataSet

scala> val caseClassDS = Seq(Person("Andy", 32)).toDS()
caseClassDS: org.apache.spark.sql.Dataset[Person] = [name: string, age: bigint]

对比DataFrame和DataSet

df: org.apache.spark.sql.DataFrame = [name: string, age: bigint]
ds: org.apache.spark.sql.Dataset[