spark-sparkSQL

最新推荐文章于 2025-05-13 10:29:25 发布

wu大熊

最新推荐文章于 2025-05-13 10:29:25 发布

阅读量337

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 大数据文章标签： spark

本文链接：https://blog.youkuaiyun.com/daxiongwuwuwuw/article/details/107878071

大数据同时被 2 个专栏收录

26 篇文章

订阅专栏

spark

3 篇文章

订阅专栏

本文深入探讨SparkSQL作为高效处理结构化数据的模块，重点介绍了DataFrame和DataSet的概念及其优势。DataFrame被视为带有Schema的分布式数据集，支持嵌套数据模型，提供易用的API。DataSet作为DataFrame的扩展，具备类型安全和查询优化特性，支持编码器提高效率。文章还介绍了SparkSession作为查询起点的重要性，以及如何创建和使用DataFrame和DataSet。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

SparkSQL是spark用来处理结构化数据的一个模块，它提供了dataframe和dataset两个编程抽象，并且作为分布式sql查询引擎的作用。
hive是将hive sql转化为mapreduce然后提交到集群执行，大大简化了编写mapreduce的复杂性，由于mapreduce计算模型效率比较慢，sparksql应运而生，将SparkSQL转化为RDD，然后提交至集群执行，执行的效率非常快。

特点

容易整合，统一数据访问，兼容hive，标准的数据连接

什么是DataFrame

与RDD类似，dataframe也是一个分布式的数据容器，然而dataframe更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与hive类似，dataframe也支持嵌套数据模型（struct、array、map）。从api的易用性的角度上看，dataframe api 提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。
在这里插入图片描述
比如上图，左侧的RDD【person】虽然以Person为类型参数，但是Spark框架本身不了解Person类的内部结构，而右侧的Dataframe却提供了详细的结构信息，使得sparkSQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。
Dataframe是为数据提供了Schema的视图，可以把它当作数据库中的一张表来对待，dataframe也是懒执行的，性能上比rdd高。

什么是DataSet

1）是Dataframe API的一个拓展，是spark最新的数据抽象。
2）用户友好的api风格，既具有类型安全检查也具有dataframe的查询优化特性。
3）dataset支持编码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率。
4）样例类被用来在dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到Dataset中的字段名称。
5）Datafram是dataset的特列，Dataframe=Dataset[Row]，所以可以通过as方法将Dataframe转换为dataset。
6）Dataset是强类型的。比如可以有Dataset[Car]，DataSet[Person]
7）DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没有办法在编译的时候检查是否类型失败的。

sparksql编程

起始点

以前的旧版本中，sparksql提供两种 sql查询起点，一个叫sqlcontext，用于spark自己提供的sql查询，一个叫hivecontext，用于连接hive查询。
sparksession是sqlcontext和hivecontext的结合，作为新的查询点。

Dataframe

创建

创建Dataframe有三种方式，通过spark数据源创建、从一个存在的rdd进行转换，还可以从hive table进行查询返回。
演示：从spark数据源进行创建，
spark.read. 然后按下tab按键
在这里插入图片描述
这里会提示spark能read的类型，我们拿json测试
先写个json：

然后创建df：

在这里插入图片描述

创建sql

然后我们用sql
#创建临时表people
scala> df.createOrReplaceTempView(“people”)

scala> val sqlDF = spark.sql(“select * from people”)
sqlDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> sqlDF.show
±–±------+
|age| name|
±–±------+
| 12| daysn|
| 13|daxiong|
| 14| ??С??|

注意，临时表是session的，session会话一旦推出临时表就没有了。
我们用刚刚的df创建全局表person
这时候，我们的表要用global_TEMP.TABLENAME来访问。
scala> df.createGlobalTempView(“person”)

scala> spark.sql(“SELECT * FROM global_temp.person”).show
±–±------+
|age| name|
±–±------+
| 12| daysn|
| 13|daxiong|
| 14| ??С??|
±–±------+

DataSet

Dataset是具有强类型的数据集合，需要提供对应的类型信息。
例子：
创建一个样例类person，然后创建一个dataset
在这里插入图片描述

DataFrame、DataSet和RDD

这三个东西可以互相切换，这里不做介绍
在这里插入图片描述
后续Dataset会逐步取代RDD和Dataframe成为唯一的api接口

scala案例

为了让spark没事别打印那么多日志，去conf目录下log4j,properties修改log4j.rootCategory=WARN, console (原本是info)
在这里插入图片描述


import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory
object HelloWorld {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("Spark SQL basic example")
      .master("local[*]")
      .config("spark.some.config.option", "some-value")
      .getOrCreate()
    //当然，代码也可以设置，设置打印warn及以上级别的日志
    spark.sparkContext.setLogLevel("WARN")
    val df = spark.read.json("I:\\\\tmp\\\\json\\\\person.json")
    df.show()
    df.filter("age>12").show()
    df.createOrReplaceTempView("persons")

    spark.sql("SELECT * FROM persons where age =12").show()

    spark.stop()
  }
}