DataFrame和DataSet
概念:
DataFrame和DataSet是SparkSQL的数据抽象,底层是RDD。
存储形式:
DataFrame(没有泛型是为了兼容Python):
DataFrame = RDD - 泛型 + 字段 + SQL操作 + 优化
本质上DataFrame就是在RDD上进一步封装,增加了SQL操作。
RDD是分布式集合,而DataFrame就是一个分布式表!!
DataSet
DataSet = DataFrame +泛型
相比于DataFrame ,DataSet由于有泛型,操作更方便,但是由于Python不支持泛型,因此仍保留了DataFrame。即Python只能用DataFrame,而Scala和Java建议使用DataSet。.
SparkSession使用:
object Demo_SparkSession {
def main