dataSet,dataFrame,RDD区别?

最新推荐文章于 2024-12-14 00:00:00 发布

爱小可爱的IT白

最新推荐文章于 2024-12-14 00:00:00 发布

阅读量394

点赞数

CC 4.0 BY-SA版权

分类专栏：总结文章标签： RDD DataFrame DataSet

本文链接：https://blog.youkuaiyun.com/aikeaidecxy/article/details/88051415

总结专栏收录该内容

14 篇文章

订阅专栏

本文深入探讨Spark中的三种数据抽象：RDD、DataFrame与Dataset的共同点与不同之处，解析它们如何处理大规模数据，以及各自在Spark SQL操作、数据类型、保存方式上的特点。

**共同点:**都是spark基本数据抽象,底层都是对整个数据集进行分区;并行化处理;都是不可变数据集;
RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利;三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算;DataFrame和Dataset均可使用模式匹配获取参数的值和类型
不同点:
RDD:
RDD不支持sparksql操作
DataFrame:(DataFrame与Dataset处理的是结构化数据集,两种方案:注册成视图,利用SQL语句查询;基于RDD进行DSL操作,直接调用底层API)
1 DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作
2 与RDD和Dataset不同，DataFrame每一行的类型固定为Row类型，只有通过解析才能获取各个字段的值
3 DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然
是有结构的数据,DataFrame是DataSet的子集
Dataset:
1 从Spark2.0开始，DataSets扮演了两种不同的角色：强类型API和弱类型API;DataFrame 当作一个泛型对象的集合DataSet[Row], Row是一个弱类型JVM 对象。相对应地，如果JVM对象是通过Scala的case class或者Java class来表示的，
2 Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同,是有结构的数据.
3 Dataset是强类型的,Dataset可以是任意的数据类型