Spark
陆久
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark-RDD介绍
目录Spark-RDD介绍1.RDD定义2.RDD属性3.RDD特点3.1.弹性3.2.分区3.3.只读3.4.依赖3.5.缓存3.6.CheckPoint Spark-RDD介绍 1.RDD定义 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 2.RDD属性 一组分区(Partition),即数据集的基本组成单位; 一个计算每个分区的函数; RDD原创 2020-07-05 13:58:33 · 163 阅读 · 0 评论 -
Spark SQL-DataFrame,DataSet与RDD
Spark SQL 目录 DataFrame DataSet RDD DataFrame,DataSet与RDD之间转换 DataFrame,DataSet与RDD之间的关系 DataFrame,DataSet与RDD之间共性与区别 1.Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式...原创 2020-03-04 10:57:53 · 406 阅读 · 0 评论
分享