大数据Spark篇--三大数据结构

在路上的小y

已于 2023-04-24 14:44:53 修改

阅读量620

点赞数

分类专栏：大数据文章标签： spark

于 2022-11-01 10:48:26 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43709558/article/details/127629561

版权

Spark 的数据结构，分别是：

RDD：弹性分布式数据集；
累加器：分布式共享只写变量；
广播变量：分布式共享只读变量。
它们分别用于不同的场景解决不同的问题。

1.RDD

RDD(Resilient Distributed Dataset) 弹性分布式数据集，是 Spark 最基本的数据处理模型，它是代码中的抽象类。对弹性分布式数据集的解释如下：

弹性：

存储的弹性：内存与磁盘自动切换；
容错的弹性：数据丢失可以自动恢复；
计算的弹性：计算出错重试；
分片的弹性：根据需要重新分片。
分布式：数据存储在不同节点上。
数据集：封装的是计算逻辑，不保存数据。

RDD 是代码中的抽象类，需要子类实现。RDD 不可变，想要改变只能产生新的 RDD 重新封装计算逻辑。RDD 可分区，里面的元素可以并行计算。

1.1 五大核心属性

分区列表：数据集的基本组成单位，标记数据是哪个分区的，执行任务时并行计算；
分区计算函数：Spark 在计算时，是使用分区函数对每一个分区进行计算；
RDD 之间的依赖关系：需要将多个计算模型进行组合时，就需要将多个RDD 建立依赖关系；
分区器 Partitioner：当数据为 key-value 类型数据时，可以通过设

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

在路上的小y

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Spark】Spark 的三大数据结构

每天更新大数据面经和技术

05-04

1812

今天学习一下 Spark 的数据结构，分别是： RDD：弹性分布式数据集；累加器：分布式共享只写变量；广播变量：分布式共享只读变量。它们分别用于不同的场景解决不同的问题。 1.RDD RDD(Resilient Distributed Dataset) 弹性分布式数据集，是 Spark 最基本的数据处理模型，它是代码中的抽象类。对弹性分布式数据集的解释如下：弹性：存储的弹性：内存与磁盘自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试；分片的弹性：根据需要重新分

Spark 之Spark三大数据结构

向日葵的博客

12-02

1926

Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区（很少使用）二、累加器2.1 运用累加器求数据之和三、广播变量：分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构：RDD、广播变量、累加器。 Spark 知识系列文章此处罗

1 条评论您还未登录，请先登录后发表或查看评论

spark-数据集（RDD,DataFrame,DataSet）

最新发布

小枫的博客

03-18

869

DataSet包含了DataFrame的功能，在Spark2.0中两者得到了统一： DataFrame表示为DataSet[Row]，即DataSet的子集。DataFrame 的前身是 SchemaRDD ，Row是一个泛化的无类型 JVM object，可以理解为一行具体的数据集合。DataFrame中提供了详细的数据结构信息，从而使得SparkSQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么，DataFrame中的数据结构信息，即为schema。

Spark---三大数据结构

大呱的博客

04-01

1823

spark---三大数据结构之RDD，累加器，广播变量

spark三大数据结构

03-29

这是我将自己所学的spark撰写下来，用与大家分享，取长补短，共同进步，我也会吸取大家的建议，努力进步，写的不算是最好的，希望大家多多包涵

Spark 数据结构

FreedomZzzzz的博客

11-20

226

总结：

大数据大创新-阿里巴巴云上数据中台之道.zip

08-20

大数据是指非结构化、半结构化和结构化数据的海量集合，具有高增长速度、多样性、价值密度低和处理速度快的特点。阿里巴巴利用大数据技术，如Hadoop、Spark等，处理PB级别的数据，进行实时或近实时的数据分析，为...

最全面的大数据Spark-Core实战案例数据集

03-22

对于大数据Spark-Core的实战案例数据集，全面性和具体性可能因不同的应用场景、业务需求和数据源而异。然而，我可以为你提供一个概述和一些常见的实战案例数据集的示例，以帮助你理解其可能的应用范围。 Spark-Core...

大数据初次窥探---第一节.docx

05-25

在大数据的结构中，操作系统扮演着基础角色，通常选择Linux作为运行平台，比如Red Hat、CentOS和Ubuntu等。Java是大数据开发的基础语言，因为Hadoop——一个由Apache基金会开发的分布式系统基础设施，依赖Java进行...

【前端素材】大数据-大数据智慧能力-网络能力.zip

04-25

Spark：Apache Spark是一个快速、通用的集群计算系统，提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库：NoSQL数据库（如MongoDB、Cassandra等）则更适用于处理这类...

spark数据结构

qq_45760556的博客

10-16

233

Spark系列 - 2 - 三大数据结构

IfNotExists的博客

06-23

752

为能够进行高并发和高吞吐的数据处理，Spark封装了三大数据结构，用于不同的数据场景。包括 RDD、累加器、广播变量。下面详细介绍这三大数据结构。

Spark入门梳理3-Spark数据结构

p515659704的博客

05-19

415

文章目录Spark编程基础-搭配Jupyter1.1 Spark SQL简介1.1.1 Spark SQL架构1.2 DataFrame与RDD的区别1.3 DataFrame的创建1.4 从RDD转换得到DataFrame1.4.1 利用反射机推断RDD模式 Spark编程基础-搭配Jupyter 1.1 Spark SQL简介 Spark 即 Hive on Spark。它的前身是Shark。...

Spark02——三大数据结构

First_____的博客

07-25

892

因为RDD的实现原理和IO的实现原理差不多，我们先来说一下IO的实现原理：其实真正进行读取数据的还是FileInputStream IO实现原理图解： RDD的工作流程： RDD不会存储数据； RDD也有装饰者模式； RDD只有调用collect方法，才会真正执行业务逻辑代码，封装操作都是对RDD的功能扩展为了保证并行度，会先进行分区： RDD的特点：介绍：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。 ➢

Machine Learning On Spark——第一节：基础数据结构（一)

weixin_34357887的博客

09-13

210

作者：周志湖微信号：zhouzhihubyond 本节主要内容本地向量和矩阵带类标签的特征向量（Labeled point）分布式矩阵 1. 本地向量和矩阵本地向量（Local Vector）存储在单台机器上，索引采用0开始的整型表示，值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵，分别...

spark学习笔记（3）spark核心数据结构RDD

leo

09-27

3808

RDD是什么 RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。（1）传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点

Spark的三大数据结构-RDD创建

weixin_46429290的博客

08-27

723

Spark的三大数据结构-RDD创建 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。一、特点弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根据需要重新分片。分布式：数据存储在大数据集群不同节点上数据集：RDD 封装了计算逻辑，并不保存数据数据抽象：RDD

Spark数据结构优化

cyony的博客

08-09

495

要减少内存的消耗，除了使用高效的序列化库以外，还有一个很重要的事情，就是优化数据结构。从而避免Java语法特性中所导致的额外内存的开销，比如基于Java数据结构，以及包装类型。

Spark三大核心数据结构（一）——RDD的概念、血缘和持久化

weixin_43636211的博客

03-26

586

Spark中三大核心数据结构： RDD、广播变量（分布式只读变量）、累加器（分布式只写变量）、 1. RDD的概念和特点： RDD，全称Resilient Distribut...

大数据平台运维-部署Spark

12-27

### 如何在大数据平台部署 Spark 集群配置与管理 #### 下载并准备 Spark 安装包为了开始部署过程，需先获取 Spark 的安装文件。这通常涉及下载官方发布的压缩包，并将其放置于目标服务器上的适当位置[^2]。 #### 解压并设置环境变量完成下载之后，应将压缩包解压至选定的目标路径下。随后，通过编辑 `.bashrc` 或者 `spark-env.sh` 文件来定义必要的环境变量，比如 SPARK_HOME 和 PATH 。这些操作确保可以在任何地方启动 Spark 命令行工具[^5]。 ```shell export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` #### 分发软件到其他节点一旦本地机器已经准备好，就需要把相同的 Spark 版本复制给集群内的所有工作节点。可以利用诸如 SCP 这样的安全拷贝协议来进行这项任务[^1]。 #### YARN 模式的集成如果计划让 Spark 使用 Hadoop YARN 作为资源管理和调度框架，则无需单独搭建完整的 Spark 集群；相反，只需按照特定指南调整一些参数即可使两者协同工作[^3]。 #### RDD 及核心组件的理解值得注意的是，在整个过程中理解 Spark Core 中的关键概念对于成功部署至关重要。特别是关于弹性分布式数据集 (RDD)，它是支持容错机制的基础结构之一，允许开发者编写高效的批处理应用程序[^4]。