Spark释义Dataset、DataFrame、SQL

本文探讨了Spark中的数据分区、转换和惰性操作的概念,重点讲解了Dataset、DataFrame与SQL表的差异。DataFrame是记录组成的不可变集合,具有模式(schema)定义列名和数据类型。转换操作分为窄依赖和宽依赖,而惰性操作确保只在必要时执行计算,优化执行计划。

数据分区

为了多个执行器能并行地工作,spark降数据分解成多个数据块,每个数据块是一个分区。

转换

进行转换时,数据会被自动分区。
转换分为两种:一种窄依赖关系的转换,一种是宽依赖关系的转换。

窄依赖转换时一个分区只会输出一个分区。
宽依赖转换时一个分区可转换多个分区。

惰性操作

惰性指等到必须执行时才计算。用户的一些操作,不会立即修改数据,而是建立转换计划并转化为流水线的物理计划。
目的是优化物理计划,减少扫描实际用不到的数据.

   val flightData2015 = spark
     .read
     .option("inferSchema", "true")
     .option("header", "true")
     .csv("/data/flight-data/csv/2015-summary.csv")
   # in Python
   flightData2015 = spark\
     .read\
     .option("inferSchema", "true")\
     .option("header", "true")\
     .csv("/data/flight-data/csv/2015-summary.csv")

Dataset、DataFrame、SQL表

Spark 是一个分布式编程模型,用户可以在其中指定转换操作( transformation)。 多次转换操作后建立起指令的有向无环图。 指令图的执行过程作为一个作业( job)由一个动作操作( action)触发,在执行过程中一个作业被分解为多个阶段( stage) 和任务( task) 在
集群上执行。

DataFrame 和 Dataset 是具有行和列的类似于(分布式)数据表的集合类型。 所有列的行数相同( 可以使用 null 来指定缺省值) ,并且某一列的类型必须在所有行中保持一致。 Spark中的 DataFrame 和 Dataset 代表不可变的数据集合, 可以通过它指定对特定位置数据的操
作,该操作将以惰性评估方式执行。 当对 DataFrame 执行动作操作时, 将触发 Spark 执行具体转换操作并返回结果。

DataFrame

DataFrame 由记录( record)组成, record 是 Row 类型(与 table 中的一行相似)。一条 record有多列( column)组成(类似于电子表格中的列),列表示可以在该 Dataset 中每个单独的记录上执行的计算表达式。模式( schema)定义了 DataFrame 列的名以及列的数据类型。

DataFrame示例:

// in Scala
val df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")
df.printSchema()

模式(schema)

模式定义 DataFrame 的列名以及列的数据类型,它可以由数据源来定义模式,也可以自己定义。

示例:

spark.read.format("json").load("/data/flight-data/json/2015-
summary.json").schema

Scala 返回以下内容:

org.apache.spark.sql.types.StructType = ...
StructType(StructField(DEST_COUNTRY_NAME,StringType,true),
StructField(ORIGIN_COUNTRY_NAME,StringType,true),
StructField(count,LongType,true))

模式是由许多字段构成的 StructType, 这些字段即为 StructField,它具有名称、类型、布尔
标志(该标志指定该列是否可以包含缺失值或空值),并且用户可指定与该列关联的元数据。

创建模式:

import org.apache.spark.sql.types.{StructField, StructType, StringType, LongType}
import org.apache.spark.sql.types.Metadata
val myManualSchema = StructType(Array(
StructField("DEST_COUNTRY_NAME", StringType, true),
StructField("ORIGIN_COUNTRY_NAME", StringType, true),
StructField("count", LongType, false,
Metadata.fromJson("{\"hello\":\"world\"}"))
))
val df = spark.read.format("json").schema(myManualSchema)
.load("/data/flight-data/json/2015-summary.json")
列和表达式

DataFrame 可能不包含某列, 所以该列要将列名与
catalog 中维护的列名相比较之后才会确定该列是否会被解析

通过短时倒谱(Cepstrogram)计算进行时-倒频分析研究(Matlab代码实现)内容概要:本文主要介绍了一项关于短时倒谱(Cepstrogram)计算在时-倒频分析中的研究,并提供了相应的Matlab代码实现。通过短时倒谱分析方法,能够有效提取信号在时间与倒频率域的特征,适用于语音、机械振动、生物医学等领域的信号处理与故障诊断。文中阐述了倒谱分析的基本原理、短时倒谱的计算流程及其在实际工程中的应用价值,展示了如何利用Matlab进行时-倒频图的可视化与分析,帮助研究人员深入理解非平稳信号的周期性成分与谐波结构。; 适合人群:具备一定信号处理基础,熟悉Matlab编程,从事电子信息、机械工程、生物医学或通信等相关领域科研工作的研究生、工程师及科研人员。; 使用场景及目标:①掌握倒谱分析与短时倒谱的基本理论及其与傅里叶变换的关系;②学习如何用Matlab实现Cepstrogram并应用于实际信号的周期性特征提取与故障诊断;③为语音识别、机械设备状态监测、振动信号分析等研究提供技术支持与方法参考; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,先理解倒谱的基本概念再逐步实现短时倒谱分析,注意参数设置如窗长、重叠率等对结果的影响,同时可将该方法与其他时频分析方法(如STFT、小波变换)进行对比,以提升对信号特征的理解能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值