Flink源码浅析：Yarn-per-job模式解析——从脚本到主类

最新推荐文章于 2024-04-15 03:24:59 发布

后端架构魔术骑士

最新推荐文章于 2024-04-15 03:24:59 发布

阅读量220

点赞数

CC 4.0 BY-SA版权

文章标签： flink 大数据

本文链接：https://blog.youkuaiyun.com/ByteHackerX/article/details/132958322

大数据专栏收录该内容

122 篇文章 ¥59.90 ¥99.00

订阅专栏

本文深入解析了Flink在Yarn-per-job模式下的运行机制，包括从脚本设置参数到主类执行的全过程。内容涵盖脚本解析、主类解析以及执行流程，帮助读者理解Flink如何在Yarn集群上独立运行作业。

在本篇文章中，我们将深入探讨Flink中的Yarn-per-job模式。我们将从脚本到主类的过程进行详细解析，并附上相应的源代码。

背景介绍
Flink是一个开源的大数据处理框架，它提供了各种处理大规模数据的功能和工具。其中，Yarn是Apache Hadoop生态系统中的一部分，用于管理集群资源和任务调度。Yarn-per-job模式是Flink在Yarn上运行的一种模式，它允许每个作业在Yarn集群上独立运行。
脚本解析
在Yarn-per-job模式下，我们首先需要编写一个脚本来提交Flink作业。脚本通常是一个Shell脚本，其中包含了一些必要的参数和配置信息。以下是一个示例脚本：

#!/bin/bash

FLINK_HOME=/path/to/flink
JOB_JAR=/path/to/job.jar
JOB_CLASS=com.example.MyJob

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

后端架构魔术骑士

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Flink源码解析：yarn-per-job模式解析、yarn提交过程解析、大数据

2301_79366435的博客

09-02

508

同时，通过对yarn提交过程的详细解析，我们能够掌握作业的提交和执行流程，从而更好地使用Flink进行大数据处理。TaskManager会从ResourceManager获取分配给它的资源，并根据Flink应用程序的配置文件初始化，然后开始执行作业的任务。在提交作业之前，需要准备作业的相关资源，其中包括作业的可执行Jar包、配置文件等。（2）ApplicationMaster：在一个容器中启动的YARN应用程序的主进程，负责与ResourceManager协调资源、处理作业的启动和监控等工作。

Flink源码探究：yarn-per-job模式解析——从脚本到主类

BugCrusher的博客

08-14

257

其中，Flink的yarn-per-job模式可实现将Flink应用提交到YARN集群上进行分布式运行。本文将深入解析Flink在yarn-per-job模式下的实现原理，涉及从脚本到主类的过程，并附有相应源代码。用户可以通过Shell脚本将Flink作业以yarn-per-job模式提交到YARN集群上运行，脚本中包含了关键的Flink运行参数和作业信息。Flink的yarn-per-job模式是一种将Flink应用作为独立作业（job）提交到YARN集群上的方式。

参与评论您还未登录，请先登录后发表或查看评论

Flink Yarn Per Job - Yarn应用

hyunbar的博客

08-01

1271

决定后面什么类型的执行器提交任务yarn-session、yarn-per-job。是否指定为per-job模式，即指定”-myarn-cluster”;是否存在flink在yarn的appID，即yarn-session模式是否启动。executor的名字为“yarn-session”或“yarn-per-job”Generic、Yarn、Default三种命令行客户端。依次是Generic、Yarn、Default。匹配一个“-”的参数或者两个“–”的参数。...

Flink ON Yarn 模式 --- per job mode 与application mode的区别

加油

11-05

1208

这两种模式中最重要的区别就是main函数启动的位置不同，Flink任务调度的过程是将本地的代码构建成DataFlow图，然后提交到JobManager上面，对于per job mode来说是在本地创建DataFlow，然而对于application mode是在JobManager上创建DataFlow，这就是二者最主要的区别。2、此时ResourceManager接受到客户端的请求，就会分配一个nodemanager去启动ApplicationMaster，就是Flink中的JobManager。

Flink的Yarn-Per-Job提交指令

mp9105的博客

05-18

1万+

Flink的yarn-per-job提交 0.运行环境 Flink版本：Flink 1.13.0 集群环境：CDH6.3.2 新版本的Flink可以通过-t参数提交统一格式的任务，日常工作中通常使用Per-Job On Yarn模式提交任务主要描述该部分的提交流程 1.提交任务提交任务主要是通过./bin/flink run -t yarn-per-job完成常用的提交指令如下 ./bin/flink run \ # 指定yarn的Per-job模式，-t等价于-Dexecution.target -

Flink 1.12.2 源码浅析 : yarn-per-job模式解析 [三]

张伯毅的专栏

03-24

1134

.一 .前言二 .代码分析2.1. YarnJobClusterEntrypoint#main2.2. ClusterEntrypoint#runCluster2.3. DefaultDispatcherResourceManagerComponentFactory#create三 . Dispatcher 相关3.1. 构建3.2. 启动四 .JobManager 相关4.1. 启动4.2. 执行五 .ResourceManager 相关5.1. 构建5.2. 启动一 .前言继续上两节 : Fli

【flink】Flink 1.12.2 源码浅析 : yarn-per-job模式解析从脚本到主类

九师兄

08-06

1059

1.概述转载：Flink 1.12.2 源码浅析 : yarn-per-job模式解析 [一] 可以去看原文。这里是补充专栏。 2. 前言主要针对yarn-per-job模式进行代码分析. 看看都干了啥… 二 .启动程序入口 2.1. 启动数据服务端先打开数据的服务端 nc -lk 9999 2.2. 提交Flink 任务. 打开flink消费服务端9999里面的数据. 执行命令 : cd ${FLINK_HOME} flink run -t yarn-per-job -c org.apache

Flink源码浅析: YARN-per-job模式解析——JobMaster启动YarnJobClusterEntrypoint

2301_79366435的博客

09-02

274

本文中，我们通过对Flink源代码的分析，深入探讨了YARN-per-job模式下的JobMaster启动和YarnJobClusterEntrypoint的实现。YARN-per-job模式是Flink在YARN上运行的一种模式，它允许每个Flink作业在YARN上启动一个独立的YARN应用。该类负责解析命令行参数、初始化和启动YARN应用程序。在本文中，我们将深入探讨Flink中的YARN-per-job模式，重点关注JobMaster的启动和YarnJobClusterEntrypoint的实现。

【flink】Flink 1.12.2 源码浅析 : yarn-per-job模式解析 yarn 提交过程解析

九师兄

08-06

1234

1.概述转载：Flink 1.12.2 源码浅析 : yarn-per-job模式解析 [二] 请大家看原文去。接上文Flink 1.12.2 源码分析 : yarn-per-job模式浅析 [一] . CliFrontend类最终会调用我们自己写的代码,入口类是main方法. 整体流程图细节图整体代码如下: package org.apache.flink.streaming.examples.socket; import org.apache.flink.api.common.funct.

在YARN上使用Flink有3种模式：Per-Job模式、Session模式和Application模式-1。job的轻巧提交设置

热门推荐

CarloPan的博客

06-12

1万+

https://weread.qq.com/web/reader/1b932790723982d91b9bd8dk66f3299023a66f041e16858

flink on yarn-per job源码解析、flink on k8s介绍

weixin_51981189的博客

03-28

1349

YARN per job模式下用户程序在Client端被执行，Client端即执行flink shell命令的执行节点。Client端主要工作就是将用户写的代码转换为JobGraph，向YARN提交应用以执行JobGraph。PipelineExecutor（YarnJobClusterExecutor）将StreamGraph转换为JobGraphClusterDescriptor（YarnClusterDescriptor）通过YARN部署flink集群以执行JobGraph。

yarn原理_Flink on Yarn–Per Job 与 Yarn–Session原理及区别

weixin_39592789的博客

12-13

1661

导读：Flink集群部署的方式有多种，如Flink Standalone、Flink on Yarn、Flink on Kubernetes等。其中Flink on Yarn又分为Yarn–Per Job模式与Yarn–Session模式。本文主要讨论关于Flink on Yarn–Per Job 与 Yarn–Session原理及区别，目录如下：yarn 架构原理-总览yarn 架构原理-组件y...

Flink的四大组件、yarn per-job模式提交流程、Slot、并行度

jason_bone_的博客

02-18

4653

1.Flink四大组件 1.1 JobManager 作业管理器控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager 所控制执行。 JobManager 会先接收到要执行的应用程序，这个应用程序会包括：作业图（JobGraph）、逻辑数据流图（logical dataflow graph）和打包了所有的类、库和其它资源的JAR包。 JobManager 会把JobGraph转换成一个物理层面的数据流图，这个图被叫做“执行图”（ExecutionGraph），包含了所有

Flink实例（五十三）: flink 作业提交（三）yarn 提交模式（二）Flink on YARN Per-Job模式

微信搜：import_bigdata，大数据领域硬核原创作者

01-23

2412

声明：本系列博客是根据SGG的视频整理而成，非常适合大家入门学习。《2021年最新版大数据面试题全面开启更新》 Flink on YARN Per-Job模式首先将之前在 yarn 上运行的应用和相关进程给kill掉： [root@hadoop01 ~]# yarn application -kill application_1601372571363_0001 [root@hadoop01 ~]# jps 6995 SecondaryNameNode 7204 ResourceManag

flink on yarn-per job源码解析、flink on k8s介绍，大数据开发自定义view面试

2401_84160325的博客

04-15

681

首先介绍一下 Yarn 的架构原理，因为只有足够了解 Yarn 的架构原理，才能更好的知道 Flink 是如何在 Yarn 上运行的。Yarn 的架构原理如上图所示，最重要的角色是 ResourceManager，主要用来负责整个资源的管理，Client 端是负责向 ResourceManager 提交任务。TaskManager 被分成很多个 TaskSlot，每个任务都要运行在一个 TaskSlot 里面，TaskSlot 是调度资源里的最小单位。以上就是一个 Standalone 任务的运行过程。

flink on yarn Per-job模式High Availability 配置

yumingzhu1的博客

07-22

2374

背景：flink on yarn Per-job 模式下flink 程序会经常挂掉，直接原因是是对应节点上的 flink的 job manager 挂掉了，导致程序失败，flink的重启策略，只对于task manager生效。因此为保证稳定性，需要配置job manager 高可用。实现方案官方：当运行一个高可用的 YARN 集群时，我们不会运行多个 JobManager(ApplicationMaster) 实例，而是只运行一个，在失败时由 YARN 重新启动。确切的行为取决于您使用...

flink yarn-perjob任务提交流程

m0_46449152的博客

02-10

2340

1、由脚本bin/flink 进入org.apache.flink.client.cli.CliFrontend CliFrontend main -> cli.parseAndRun -> run -> executeProgram -> ClientUtils.executeProgram -> program.invokeInteractiveModeForExecution() -> callMainMethod -> mainMethod.invoke

【回顾】flink1.12+作业以per-job模式部署在yarn-cluster的异常，flink日志配置及webui日志输出，重启作业后checkpoint恢复

yxluojiecpp的博客

09-12

1588

flink作业yarn部署遇到的异常 flink日志配置webui日志输出重启flink作业后checkpoint恢复

Flink 1.12.2 源码浅析 : yarn-per-job模式解析 [四]

张伯毅的专栏

03-24

1781

.一 .前言二 .代码分析2.1. 执行入口2.2. TaskManagerRunner#runTaskManagerProcessSecurely2.3. TaskManagerRunner#runTaskManager2.4. 启动 TaskManagerRunner2.5. 向ResourceManager注册&启动2.6. RetryingRegistration#startRegistration();2.7. 注册成功 TaskExecutor#onRegistrationSuccess

flink run -t yarn-per-job -c com.sxemc.chapter2.UnBoundWordCount original-demo11-1.0-SNAPSHOT.jar

最新发布

09-22

<think> 我们正在分析用户的问题：用户希望了解执行 `flink run -t yarn-per-job -c com.sxemc.chapter2.UnBoundWordCount original-demo11-1.0-SNAPSHOT.jar` 命令的含义以及可能出现的错误和解决办法。首先，我们分解这个命令：命令格式：`flink run [options] <jar-file> <arguments>` 具体参数解析： - `-t yarn-per-job`：指定部署模式为YARN per-job模式（每个作业启动一个单独的Flink集群）。 - `-c com.sxemc.chapter2.UnBoundWordCount`：指定入口类（main方法所在的类）。 - `original-demo11-1.0-SNAPSHOT.jar`：要运行的JAR包。常见问题及解决方案： 1. **类找不到（ClassNotFoundException）**：通常是因为指定的类名错误或JAR包中不存在该类。解决：检查类名拼写，确认JAR包中包含该类。 2. **YARN资源不足**：YARN集群没有足够的资源启动ApplicationMaster或TaskManager。解决：检查YARN资源队列的状态，调整Flink作业的资源请求（通过`-yjm`、`-ytm`等参数）。 3. **依赖冲突**：用户JAR包中的依赖与Flink或Hadoop的依赖冲突。解决：使用`maven-shade-plugin`打包时重命名依赖，或排查冲突的依赖。 4. **HDFS权限问题**：Flink需要向HDFS上传作业JAR和配置文件，若当前用户没有权限则失败。解决：使用`kinit`进行Kerberos认证，或联系管理员授权HDFS目录。 5. **网络问题**：作业提交过程中网络中断。解决：重试提交，检查网络连接。 6. **入口类错误**：入口类没有继承正确的接口或main方法签名错误。解决：确认类实现了`org.apache.flink.api.java.utils.ParameterTool`或正确使用`env.execute()`。 7. **版本不兼容**：Flink客户端版本与YARN集群上的Flink版本不一致。解决：确保提交作业的Flink客户端版本与集群上安装的版本一致。 8. **配置文件错误**：如`flink-conf.yaml`配置错误（例如HA配置不正确）。解决：检查配置文件，特别是YARN相关的配置。其他注意事项： - 在YARN per-job模式下，作业完成后集群资源会自动释放。 - 可以通过`-yD`参数指定动态属性，例如：`-yD taskmanager.memory.process.size=2048m`。生成相关问题： 1. 如何查看提交到YARN的Flink作业日志？ 2. Flink on YARN 有哪些部署模式？它们之间有什么区别？ 3. 如何为Flink作业指定自定义的YARN队列？ 4. Flink作业提交时如何传递参数？ 5. Flink on YARN 作业失败的原因有哪些？如何排查？根据以上分析，我们组织答案。 </think> ### Flink命令解析：`flink run -t yarn-per-job -c com.sxemc.chapter2.UnBoundWordCount original-demo11-1.0-SNAPSHOT.jar` #### 一、命令结构解析 | 参数 | 含义 | 数学表示 | |------------------------------|----------------------------------------------------------------------|-----------------------------| | `flink run` | 提交Flink作业到集群 | $\text{job} \to \text{cluster}$ | | `-t yarn-per-job` | 部署模式：YARN per-job（每个作业独立集群） | $\text{mode}_{\text{yarn-per-job}} = \text{isolated}$ | | `-c com.sxemc.chapter2.UnBoundWordCount` | 主类全限定名（程序入口） | $\text{main}_{\text{class}} \in \text{JAR}$ | | `original-demo11-1.0-SNAPSHOT.jar` | 应用程序JAR包路径 | $\text{job}_{\text{package}} = f(\text{path})$ | #### 二、部署模式对比 | 模式 | 资源隔离 | 启动速度 | 适用场景 | 资源方程 | |-----------------|----------------|----------|-------------------|------------------------| | **yarn-per-job**| 作业级隔离 | 慢 | 生产环境稳定作业 | $R_{\text{total}} = \sum R_{\text{job}}$ | | yarn-session | 会话级共享 | 快 | 开发/测试环境 | $R_{\text{pool}} = \text{const}$ | | kubernetes | 容器级隔离 | 中等 | 云原生环境 | $R_{\text{pod}} \subset R_{\text{node}}$ | #### 三、常见错误及解决方案 1. **主类找不到（ClassNotFoundException）** ```bash Caused by: java.lang.ClassNotFoundException: com.sxemc.chapter2.UnBoundWordCount ``` **原因**： - JAR包未包含指定类：$\text{class} \notin \text{JAR}$ - 类路径不正确：$ \text{classpath} \neq \text{actual\_path} $ **解决**： ```bash # 检查JAR内容 jar -tf original-demo11-1.0-SNAPSHOT.jar | grep UnBoundWordCount # 重新打包包含主类 mvn clean package ``` 2. **YARN资源不足** ```log Exception: Could not allocate resource manager ``` **资源方程分析**： $$ \text{requested}_{\text{vcpu}} > \text{available}_{\text{vcpu}} \quad \lor \quad \text{requested}_{\text{mem}} > \text{available}_{\text{mem}} $$ **解决**： ```bash # 降低资源请求 flink run -t yarn-per-job \ -yjm 1024 \ # AM内存(MB) -ytm 2048 \ # TM内存(MB) -ys 2 \ # slot数量 -c ... original-demo11-1.0-SNAPSHOT.jar ``` 3. **依赖冲突** ```log java.lang.NoSuchMethodError: org.apache.flink.api.common.functions.FlatMapFunction.flatMap ``` **原因**： $$ \exists \text{lib}_A, \text{lib}_B : \text{version}_A \neq \text{version}_B $$ **解决**： ```xml  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java</artifactId> <exclusions> <exclusion> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> </exclusion> </exclusions> </dependency> ``` 4. **HDFS权限问题** ```log org.apache.hadoop.security.AccessControlException: Permission denied ``` **解决**： ```bash # Kerberos认证 kinit -kt user.keytab user@DOMAIN # 临时HDFS授权 hdfs dfs -chmod 755 /user/flink ``` 5. **网络超时** ```log org.apache.flink.runtime.rest.util.ConnectingTimeoutException: Timeout ``` **优化参数**： ```bash flink run -t yarn-per-job \ -yD akka.ask.timeout=120s \ -yD web.timeout=120000 \ -c ... original-demo11-1.0-SNAPSHOT.jar ``` #### 四、最佳实践建议 1. **资源计算公式**： $$ \text{TM内存} = \text{taskmanager.heap.mb} + \text{taskmanager.memory.off-heap.size} + \text{network\_buffers} $$ 2. **日志排查路径**： ```bash yarn logs -applicationId <app_id> > flink_debug.log ``` 3. **参数优先级（由高到低）**： CLI参数 > `flink-conf.yaml` > 默认值 ---