什么是RDD
RDD ( Resilient Distributed Dataset )叫做弹性分布式数据集,是 Spark 中最基本的 数据 处理模型 。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
RDD特点:
1、弹性
-
存储的弹性:内存与磁盘的自动切换;
-
容错的弹性:数据丢失可以自动恢复;
-
本文介绍了Spark中的RDD核心概念,包括其弹性特点和执行原理。接着详细讲解了如何在Yarn环境中创建RDD,包括直接从内存创建RDD和读取外部文件创建RDD的实例。
RDD ( Resilient Distributed Dataset )叫做弹性分布式数据集,是 Spark 中最基本的 数据 处理模型 。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
RDD特点:
1、弹性
2716
545
1281
710

被折叠的 条评论
为什么被折叠?