简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?

本文对比分析了Spark中RDD、DataFrame和DataSet三种数据结构的特点。RDD提供了类型安全和面向对象的编程风格,但序列化和GC开销较大;DataFrame通过schema和off-heap解决了RDD的性能问题,但失去了类型安全和面向对象的特性;DataSet结合了前两者的优点,通过Encoder实现了高效的数据操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)RDD

优点:

编译时类型安全 

 编译时就能检查出类型错误

面向对象的编程风格 

直接通过类名点的方式来操作数据

缺点:

序列化和反序列化的性能开销 

无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化。

GC的性能开销 ,频繁的创建和销毁对象, 势必会增加GC

2)DataFrame

DataFrame引入了schemaoff-heap

schema : RDD每一行的数据, 结构都是一样的,这个结构就存储在schema中。 Spark通过schema就能够读懂数据, 因此在通信和IO时就只需要序列化和反序列化数据, 而结构的部分就可以省略了。

off-heap : 意味着JVM堆以外的内存, 这些内存直接受操作系统管理(而不是JVM)。Spark能够以二进制的形式序列化数据(不包括结构)off-heap中, 当要操作数据时,就直接操作off-heap内存。由于Spark理解schema,所以知道该如何操作。

off-heap就像地盘,schema就像地图,Spark有地图又有自己地盘了,就可以自己说了算了,不再受JVM的限制,也就不再收GC的困扰了。

通过schemaoff-heapDataFrame解决了RDD的缺点,但是却丢了RDD的优点。DataFrame不是类型安全的,API也不是面向对象风格的。

3)DataSet

DataSet结合了RDDDataFrame的优点,并带来的一个新的概念Encoder

当序列化数据时,Encoder产生字节码与off-heap进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象Spark还没有提供自定义EncoderAPI,但是未来会加入。

4)RDD和DataSet

DataSetCatalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sortingshuffle等操作。

DataSet创立需要一个显式的Encoder,把对象序列化为二进制,可以把对象的scheme映射为Spark SQL类型,然而RDD依赖于运行时反射机制。

DataSetRDD性能要好很多。

5)DataFrame和DataSet

Dataset可以认为是DataFrame的一个特例,主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row。因此具有如下三个特点:

  1. DataSet可以在编译时检查类型
  2. DataSet是面向对象的编程接口。
  3. 后面版本DataFrame会继承DataSetDataFrame是面向Spark SQL的接口。

DataFrameDataSet可以相互转化,df.as[ElementType]这样可以把DataFrame转化为DataSetds.toDF()这样可以把DataSet转化为DataFrame

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值