Spark中RDD、DataFrame、DataSet

博客介绍了Spark中的RDD、DataFrame和DataSet。DataFrame类似传统数据库二维表格,记录数据结构信息,支持嵌套类型,API更友好。DataSet是DataFrame API扩展,有类型安全检查和查询优化特效,支持编码解码器。还说明了DataFrame是DataSet特例,DataSet是强类型的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RDD

弹性分布式数据集

 

DataFrame,更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema,。

同时,与hive类似,DataFrame也支持嵌套数据类型(struct,array,map),

从API易用性来看,DataFrameAPI提供的时一套高层的关系操作,比函数式的RDDAPI更加友好,门槛更低。

 

 

DataSet

是DataFrame API的一个扩展,是Spark最新的数据抽象

用户友好的API峰哥,机油类型安全检查,也有查询优化特效

支持编码解码器,当需要访问非堆上的数据时,可以避免反序列化整个对象,提高效率。

 

 

区别:

Dataframe是Dataset的特例,DataFrame=DataSet[Row], 所以可以用as方法将DataFrame转化成DataSet,Row是一个类型,和Car,Person这些类型一样。

DataSet是强类型的。

DataFrame只是知道字段,但不知道字段的类型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值