【Spark】之 RDD(Resilient Distributed Dataset)
文章目录RDD 编程模型一、RDD 之间的依赖关系(Dependency)如何生成RDD?二、RDD计算(1)RDD 获得数据(2)RDD 计算任务(3)RDD 操作算子三、RDD 容错(1)`Lineage`(2)`checkpoint` 机制
RDD 编程模型
需求:需要在多个并行操作之间 重用 工作数据集。
典型场景:机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数)
数据重用隐...
原创
2019-01-29 21:25:51 ·
370 阅读 ·
0 评论