dataSet,dataFrame,RDD区别?

本文深入探讨Spark中的三种数据抽象:RDD、DataFrame与Dataset的共同点与不同之处,解析它们如何处理大规模数据,以及各自在Spark SQL操作、数据类型、保存方式上的特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

**共同点:**都是spark基本数据抽象,底层都是对整个数据集进行分区;并行化处理;都是不可变数据集;
RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利;三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算;DataFrame和Dataset均可使用模式匹配获取参数的值和类型
不同点:
RDD:
RDD不支持sparksql操作
DataFrame:(DataFrame与Dataset处理的是结构化数据集,两种方案:注册成视图,利用SQL语句查询;基于RDD进行DSL操作,直接调用底层API)
1 DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作
2 与RDD和Dataset不同,DataFrame每一行的类型固定为Row类型,只有通过解析才能获取各个字段的值
3 DataFrame与Dataset支持一些特别方便的保存方式,比如保存成csv,可以带上表头,这样每一列的字段名一目了然
是有结构的数据,DataFrame是DataSet的子集
Dataset:
1 从Spark2.0开始,DataSets扮演了两种不同的角色:强类型API和弱类型API;DataFrame 当作一个泛型对象的集合DataSet[Row], Row是一个弱类型JVM 对象。相对应地,如果JVM对象是通过Scala的case class或者Java class来表示的,
2 Dataset和DataFrame拥有完全相同的成员函数,区别只是每一行的数据类型不同,是有结构的数据.
3 Dataset是强类型的,Dataset可以是任意的数据类型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值