Spark快速大数据分析.pdf

原创于 2021-08-13 15:25:45 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

spark 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了Spark中的关键概念——弹性分布式数据集(RDD)，包括转化操作如map和filter，以及行动操作如count和first。RDD采用惰性计算，仅在执行行动操作时才触发实际计算，节省存储空间。缓存数据可通过RDD.persist()实现，以提高重用效率。此外，文章还阐述了Spark的任务调度和DAG执行计划，以及驱动器和执行器的角色。

部署运行你感兴趣的模型镜像

RDD：弹性分布式数据集（Resilient Distributed Dataset）

RDD 支持两种操作：转化操作和行动操作

转化操作（transformation）：由一个 RDD 生成一个新的 RDD ，比如 map() 和 filter()

pythonLines = lines.filter(line => line.contains("Python"))

和行动操作（action）：向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际的计算

，比如 count() 和 first()。

惰性计算RDD：第一次在一个行动操作中用到时，才会真正计算

调用 sc.textFile() 时，数据并没有读取进来，而是在必要时才会读取。和转化操作一样的是，读取数据的操作也有可能会多次执行。

如果 Spark 在 lines = sc.textFile(...) 就把文件中所有的行读取并存储，就会消耗很多存储空间。

相反，一旦 Spark 了解了完整的转化操作链之后，它就可以只计算求结果时真正需要的数据。事实上，在行动操作 first() 中，Spark 只需要扫描文件直到找到第一个匹配的行为止，而不需要读取整个文件。

缓存数据：如果想在多个行动操作中重用同一个 RDD，可以使用 RDD.persist() 让 Spark 把这个 RDD缓存下来，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中

创建 RDD ：已有的集合传给 SparkContext 的 parallelize() 方法

val lines = sc.parallelize(List("pandas", "i like pandas"))（不常用）

常用的是从外部存储读取数据

collect() ：来获取整个 RDD 中的数据在本地处理，不能用在大规模数据集上

take() ：获取RDD 中的少量元素

rdd.reduceByKey(func) 与 rdd.groupByKey().mapValues(value => value.reduce(func)) 等价，但是前者更为高效

驱动器（Driver）节点：中央协调节点，调度各个分布式工作节点

执行器（executor）节点：与之对应的工作节点

Spark 应用（application）：驱动器节点和所有的执行器节点

集群管理器（Cluster Manager）：外部服务，使Spark 应用在集群中的机器上启动

两大开源集群管理器：Hadoop YARN 和 Apache Mesos

Spark 驱动器：执行程序中的 main() 方法的进程（Spark shell 总是会预先加载一个叫作 sc 的 SparkContext 对象）

Spark 应用中两个职责：

1、把用户程序转为任务

任务（task）：Spark 驱动器程序把用户程序转换后的多个物理执行单元， Spark 中最小的工作单元，用户程序通常要启动成百上千的独立任务

有向无环图（Directed Acyclic Graph，简称 DAG）：Spark 程序其实是隐式地创建出了一个由操作组成的逻辑上的有向无环图

Spark 程序都遵循同样的结构：程序从输入数据创建一系列 RDD，再使用转化操作派生出新的 RDD，最后使用行动操作收集或存储结果 RDD 中的数据。

当驱动器程序运行时，它会把这个逻辑图转为物理执行计划。

步骤（stage）：由多个任务组成，这些任务会被打包并送到集群中

优化逻辑执行计划：，比如将连续的映射转为流水线化执行，将多个操作合并到一个步骤

2、为执行器节点调度任务

。执行器进程启动后，会向驱动器进程注册自己

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。