Spark——分布式并行计算概念

最新推荐文章于 2024-11-15 00:25:13 发布

转载最新推荐文章于 2024-11-15 00:25:13 发布 · 452 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/240712

文章标签：

本文介绍Spark作为一款基于数据集的并行计算框架，如何通过数据切分、算法复制、分布执行和结果合并等步骤实现高效的大数据处理。重点介绍了Spark的基本概念、计算范式以及任务拆分流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，概念

一个资源密集型的任务，需要一组资源并行的完成，当计算机任务过重，就把计算任务拆分，然后放到多个计算节点上同时执行，这就是分布式并行计算啦。分布式并行计算，强调用硬件的堆叠，来解决问题。

spark解决的问题：有了spark,只要把数据和程序交给spark,它会机智地进行数据切分、算法复制、分布执行、结果合并。spark屏蔽了分布并行计算的细节，让我们可以快速开发分布并行的应用。

二，基于数据集的计算框架

spark的计算范式是数据集上的计算，在实用spark的时候，要按照spark的范式写算法。Spark在数据集的层次上进行分布并行计算，它只认成堆的数据。

提交给spark的任务，都必须满足两个条件：

数据是可以分块的，每块构成一个集合。
算法只能在集合级别执行操作。

比如，对于文本文件，在Spark中，一行就是一条记录，若干条记录组成一个集合。我们原来的算法直接在每一行上进行计算，就不行了。需要先构建数据集，然后通过数据集的操作，实现我们的目的。

所以，Spark是一种粗粒度、基于数据集的并行计算框架。

三，Spark基本概念及拆分任务的流程

1，将数据载入并构造数据集，在spark中，这个数据集被称为RDD（弹性分布数据集）。

2，对数据集进行map操作，指定行为

3，对map中的数据集进行collect操作，并获得合并的结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。