【17】Flink 之 并行度(Parallel)及设置

本文详细解析了Apache Flink中的并行度概念及其在不同层级的设置方法,包括算子、执行环境、客户端及系统级别。并介绍了TaskManager、Slot与CPU核数的关系,以及如何通过调整并行度优化资源分配。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、TaskManager 和 Slot

  • Flink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。

  Slot 是进程,如果使用Flink on Yarn 模式不需要考虑资源的配置。

2、并行度(Parallel)

  • 一个Flink程序由多个任务组成(source、transformation和 sink)。 一个任务由多个并行的实例(线程)来执行, 一个任务的并行实例(线程)数目就被称为该任务的并行度。

2.1、并行度(Parallel)的设置

  • 一个任务的并行度设置可以从多个层次指定
  1. Operator Level(算子层次)
  2. Execution Environment Level(执行环境层次)
  3. Client Level(客户端层次)
  4. System Level(系统层次)

2.2、Operator Level(算子层面)

一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定

2.3、Execution Environment Level(全局层面)

执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的算子、数据源和data sink, 可以通过如下的方式设置执行环境的并行度:

  • 执行环境的并行度可以通过显式设置算子的并行度而被重写

2.4、Client Level

  • 并行度可以在客户端将job提交到Flink时设定。
  • 对于CLI客户端,可以通过-p参数指定并行度
    ./bin/flink run -p 10 WordCount-java.jar

2.5、System Level(尽量不使用)

  • 在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度

2.6、并行度图解

Example1

  解释:

  1. 在fink-conf.yaml中 taskmanager.numberOfTaskSlots 默认值为1,即每个Task Manager上只有一个Slot ,此处是3
  2. Example中,WordCount程序设置了并行度为1,意味着程序 Source、Reduce、Sink在一个Slot中,占用一个Slot

Example2
  解释:

  1. 通过设置并行度为2后,将占用2个Slot

Example3
  解释:

  1. 通过设置并行度为9,将占用9个Slot

Example4
  解释:

  1. 通过设置并行度为9,并且设置sink的并行度为1,则Source、Reduce将占用9个Slot,但是Sink只占用1个Slot

下一篇:【18】Flink 之 支持的DataType和序列化


<think>好的,用户想了解Flink CDC的相关信息和使用方法,特别是使用教程和原理介绍。我需要根据提供的引用资料来组织回答。首先,我需要明确Flink CDC的定义和作用。根据引用[1],Flink CDC是用于数据捕获和实时数据同步的工具,基于Flink的流处理能力。接下来,原理部分需要解释它的工作机制,比如连接器和Debezium的关系,以及Flink的处理流程。引用[2]和[3]提到了Flink CDC的版本演变和开源地址,这里需要说明不同版本的区别,特别是2.x和3.x的改进,如无锁算法和并行读取。 然后,使用教程部分要分步骤说明环境准备、依赖配置、代码示例等。引用[4]提到使用SQL CLI进行操作,可以给出SQL示例。同时,用户可能需要代码示例,比如如何定义MySQL源表,这里要确保语法正确,使用$$...$$格式。注意事项部分要包括版本兼容性、性能调优等,引用[1]中的Debezium格式和引用[3]中的项目地址可以作为补充。 最后生成相关问题,覆盖应用场景、优化方法、与其他工具对比等。检查是否符合系统级指令,比如行内公式是否正确,独立公式是否单独成段,引用标识是否添加。确保回答结构清晰,分点说明,并正确引用相关资料。需要注意用户可能对Flink CDC的具体实现细节和实际应用感兴趣,所以需要详细说明原理和使用步骤,同时提供实际代码示例帮助理解。</think>### Flink CDC 原理与使用详解 #### 一、核心概念 1. **CDC 定义**:变更数据捕获(Change Data Capture)技术用于捕捉数据库的增删改操作,实现实时数据同步[^1] 2. **Flink CDC 定位**:基于 Apache Flink 构建的实时数据集成工具,支持全量+增量数据同步,兼容多种数据库[^3] #### 二、技术原理 1. **架构组成**: - 基于 Debezium 引擎捕获数据库变更日志 - 通过 Flink 流处理引擎实现数据转换与分发 - 支持 MySQL、PostgreSQL、Oracle 等常见数据库 2. **核心机制**: ```mermaid graph LR DB[(数据库)] -->|Binlog| Debezium Debezium -->|CDC Events| Flink Flink -->|处理后的数据| Sink[(目标系统)] ``` 3. **版本演进**: - 1.x:单并行度读取,全量阶段锁表 - 2.x:支持并行读取,无锁算法(parallel snapshot) - 3.x:增强 Exactly-Once 语义,优化内存管理 #### 三、使用教程 **步骤1:环境准备** ```sql -- 创建 MySQL 源表(使用 Flink SQL) CREATE TABLE mysql_source ( id INT, name STRING, PRIMARY KEY(id) NOT ENFORCED ) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'localhost', 'port' = '3306', 'username' = 'root', 'password' = '123456', 'database-name' = 'test_db', 'table-name' = 'user_table' ); ``` [^4] **步骤2:数据消费** ```sql -- 创建 Kafka 目标表 CREATE TABLE kafka_sink ( user_id INT, user_name STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'user_events', 'properties.bootstrap.servers' = 'localhost:9092', 'format' = 'json' ); -- 数据管道 INSERT INTO kafka_sink SELECT id AS user_id, name AS user_name FROM mysql_source; ``` #### 四、注意事项 1. **版本兼容性**:Flink 1.13+ 推荐使用 CDC 2.x 版本[^2] 2. **性能调优**: - 调整`server-id`范围避免冲突 - 合理设置`chunk-size`(默认8096) - 启用`parallelism`进行并行读取 3. **数据格式**:采用 Debezium 标准 JSON 格式,包含以下字段: ```json { "before": {...}, "after": {...}, "source": {...}, "op": "c/u/d", "ts_ms": 1629789287100 } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大小宝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值