**共同点:**都是spark基本数据抽象,底层都是对整个数据集进行分区;并行化处理;都是不可变数据集;
RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利;三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算;DataFrame和Dataset均可使用模式匹配获取参数的值和类型
不同点:
RDD:
RDD不支持sparksql操作
DataFrame:(DataFrame与Dataset处理的是结构化数据集,两种方案:注册成视图,利用SQL语句查询;基于RDD进行DSL操作,直接调用底层API)
1 DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作
2 与RDD和Dataset不同,DataFrame每一行的类型固定为Row类型,只有通过解析才能获取各个字段的值
3 DataFrame与Dataset支持一些特别方便的保存方式,比如保存成csv,可以带上表头,这样每一列的字段名一目了然
是有结构的数据,DataFrame是DataSet的子集
Dataset:
1 从Spark2.0开始,DataSets扮演了两种不同的角色:强类型API和弱类型API;DataFrame 当作一个泛型对象的集合DataSet[Row], Row是一个弱类型JVM 对象。相对应地,如果JVM对象是通过Scala的case class或者Java class来表示的,
2 Dataset和DataFrame拥有完全相同的成员函数,区别只是每一行的数据类型不同,是有结构的数据.
3 Dataset是强类型的,Dataset可以是任意的数据类型