Spark释义Dataset、DataFrame、SQL

最新推荐文章于 2024-01-21 03:40:38 发布

原创最新推荐文章于 2024-01-21 03:40:38 发布 · 273 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

8 篇文章

订阅专栏

本文探讨了Spark中的数据分区、转换和惰性操作的概念，重点讲解了Dataset、DataFrame与SQL表的差异。DataFrame是记录组成的不可变集合，具有模式（schema）定义列名和数据类型。转换操作分为窄依赖和宽依赖，而惰性操作确保只在必要时执行计算，优化执行计划。

数据分区

为了多个执行器能并行地工作，spark降数据分解成多个数据块，每个数据块是一个分区。

转换

进行转换时，数据会被自动分区。
转换分为两种：一种窄依赖关系的转换，一种是宽依赖关系的转换。

窄依赖转换时一个分区只会输出一个分区。
宽依赖转换时一个分区可转换多个分区。

惰性操作

惰性指等到必须执行时才计算。用户的一些操作，不会立即修改数据，而是建立转换计划并转化为流水线的物理计划。
目的是优化物理计划，减少扫描实际用不到的数据.

   val flightData2015 = spark
     .read
     .option("inferSchema", "true")
     .option("header", "true")
     .csv("/data/flight-data/csv/2015-summary.csv")
   # in Python
   flightData2015 = spark\
     .read\
     .option("inferSchema", "true")\
     .option("header", "true")\
     .csv("/data/flight-data/csv/2015-summary.csv")

Dataset、DataFrame、SQL表

Spark 是一个分布式编程模型，用户可以在其中指定转换操作（ transformation）。多次转换操作后建立起指令的有向无环图。指令图的执行过程作为一个作业（ job）由一个动作操作（ action）触发，在执行过程中一个作业被分解为多个阶段（ stage）和任务（ task）在
集群上执行。

DataFrame 和 Dataset 是具有行和列的类似于（分布式）数据表的集合类型。所有列的行数相同（可以使用 null 来指定缺省值），并且某一列的类型必须在所有行中保持一致。 Spark中的 DataFrame 和 Dataset 代表不可变的数据集合，可以通过它指定对特定位置数据的操
作，该操作将以惰性评估方式执行。当对 DataFrame 执行动作操作时，将触发 Spark 执行具体转换操作并返回结果。

DataFrame

DataFrame 由记录（ record）组成， record 是 Row 类型（与 table 中的一行相似）。一条 record有多列（ column）组成（类似于电子表格中的列），列表示可以在该 Dataset 中每个单独的记录上执行的计算表达式。模式（ schema）定义了 DataFrame 列的名以及列的数据类型。

DataFrame示例:

// in Scala
val df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")
df.printSchema()

模式(schema)

模式定义 DataFrame 的列名以及列的数据类型，它可以由数据源来定义模式，也可以自己定义。

示例:

spark.read.format("json").load("/data/flight-data/json/2015-
summary.json").schema

Scala 返回以下内容：

org.apache.spark.sql.types.StructType = ...
StructType(StructField(DEST_COUNTRY_NAME,StringType,true),
StructField(ORIGIN_COUNTRY_NAME,StringType,true),
StructField(count,LongType,true))

模式是由许多字段构成的 StructType，这些字段即为 StructField，它具有名称、类型、布尔
标志（该标志指定该列是否可以包含缺失值或空值），并且用户可指定与该列关联的元数据。

创建模式:

import org.apache.spark.sql.types.{StructField, StructType, StringType, LongType}
import org.apache.spark.sql.types.Metadata
val myManualSchema = StructType(Array(
StructField("DEST_COUNTRY_NAME", StringType, true),
StructField("ORIGIN_COUNTRY_NAME", StringType, true),
StructField("count", LongType, false,
Metadata.fromJson("{\"hello\":\"world\"}"))
))
val df = spark.read.format("json").schema(myManualSchema)
.load("/data/flight-data/json/2015-summary.json")