SparkSQL(4)——Spark SQL DataSet操作

1、DataSet是什么?

DataSet是分布式的数据集合,DataSet提供了强类型支持,也是在RDD的每行数据加了类型约束。
DataSet是在Spark1.6中添加的新的接口。
它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了Spark SQL优化的执行引擎。
可以通过JVM的对象进行构建DataSet。
DataSet可以用函数式的转换(map/flatmap/filter)进行多种操作。

2、DataFrame与DataSet的区别

DataSet包含了DataFrame的功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row],即DataSet的子集。
DataSet可以在编译时检查类型
DataSet是面向对象的编程接口

3、DataFrame与DataSet互相转换

DataFrame转为 DataSet

df.as[ElementType] 这样可以把DataFrame转化为DataSet。

val ds=personDF.as[Person]
DataSet转为DataFrame

ds.toDF() 这样可以把DataSet转化为DataFrame。
在这里插入图片描述

4、DataSet的创建

从一个已经存在的scala集合来构建
 val ds1=spark.createDataset(List(1,2,3,4,5,6))
val ds2=List(1,2,3,4,5,6).toDS
从一个已经存在的rdd中来构建
val ds3=spark.createDataset(sc.textFile("/person.txt"))
通过dataFrame转换生成
 dataSet=dataFrame.as[强类型]

在这里插入图片描述

Dataset相关方法

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值