【17】Flink 之并行度（Parallel）及设置

最新推荐文章于 2025-06-03 10:58:33 发布

原创最新推荐文章于 2025-06-03 10:58:33 发布 · 1.5w 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#Flink #并行度 #Parallel #设置方法

Flink教程专栏收录该内容

20 篇文章

订阅专栏

本文详细解析了Apache Flink中的并行度概念及其在不同层级的设置方法，包括算子、执行环境、客户端及系统级别。并介绍了TaskManager、Slot与CPU核数的关系，以及如何通过调整并行度优化资源分配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、TaskManager 和 Slot

Flink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。

Slot 是进程，如果使用Flink on Yarn 模式不需要考虑资源的配置。

2、并行度(Parallel)

一个Flink程序由多个任务组成(source、transformation和 sink)。一个任务由多个并行的实例(线程)来执行，一个任务的并行实例(线程)数目就被称为该任务的并行度。

2.1、并行度(Parallel)的设置

一个任务的并行度设置可以从多个层次指定

Operator Level（算子层次）
Execution Environment Level（执行环境层次）
Client Level（客户端层次）
System Level（系统层次）

2.2、Operator Level（算子层面）

一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定

2.3、Execution Environment Level（全局层面）

执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的算子、数据源和data sink，可以通过如下的方式设置执行环境的并行度：

执行环境的并行度可以通过显式设置算子的并行度而被重写

2.4、Client Level

并行度可以在客户端将job提交到Flink时设定。
对于CLI客户端，可以通过-p参数指定并行度
./bin/flink run -p 10 WordCount-java.jar

2.5、System Level（尽量不使用）

在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度

2.6、并行度图解

Example1 ：

解释：

在fink-conf.yaml中 taskmanager.numberOfTaskSlots 默认值为1，即每个Task Manager上只有一个Slot ，此处是3
Example中，WordCount程序设置了并行度为1，意味着程序 Source、Reduce、Sink在一个Slot中，占用一个Slot

Example2 ：
解释：

通过设置并行度为2后，将占用2个Slot

Example3 ：
解释：

通过设置并行度为9，将占用9个Slot

Example4 ：
解释：

通过设置并行度为9，并且设置sink的并行度为1，则Source、Reduce将占用9个Slot，但是Sink只占用1个Slot

下一篇：【18】Flink 之支持的DataType和序列化