Flink源码解析（1）job启动，从JM到TM过程详解

原创

已于 2024-04-10 15:00:06 修改

· 1.3k 阅读

17 ·

版权

文章标签：

#flink #大数据

于 2024-03-15 16:14:11 首次发布

本文详细介绍了Flink的网络传输模型，重点解析了RpcGateway、RpcEndpoint、RpcService、RpcServer以及TaskManager的角色和功能。JobManager的启动流程包括JobGraph的提交、JobManagerRunner的创建和JobMaster服务的启动。TaskManager是执行任务和数据交换的工作节点，通过Task slots进行资源管理。Flink的RPC通信机制保证了客户端与服务端的交互。文章还概述了JobGraph提交的整体流程，从客户端提交到JobMaster开始调度执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网络传输模型

首先在看之前，回顾一下akka模型：

Flink通讯模型—Akka与Actor模型-优快云博客

注：ActorRef就是actor的引用，封装好了actor

下面是jm和tm在通讯上的概念图：

RpcGateway

不理解网关的作用，可以先移步看这里：网关_百度百科 (baidu.com)

但是这里的gateway准确来说不是网关，是一个代理的接口，实现它才可以访问这个组件，所以gateway是真正的代理，你想去访问就得实现它。

用于定义RPC协议，是客户端和服务端沟通的桥梁。
服务端实现了RPC协议，即实现了接口中定义的方法，做具体的业务逻辑处理。
客户端实现了RPC协议，客户端是Proxy生成的代理对象，将对RpcGateway接口方法的调用转为Akka的消息发送。
关注其5个子接口：DispatcherGateway、ResourceManagerGateway、JobMasterGateway、MetricQueryServiceGateway、TaskExecutorGateway。

RpcEndpoint

RPC服务端的抽象，实现了该接口即为Rpc服务端，是Akka中Actor的封装。
Actor收到ActorRef发送的消息(消息被封装为RpcInvocation对象)，会通过RpcInvocation对象中的方法、参数等信息以反射的方式调用RpcGateway接口对应的方法。
关注其5个实现类：Dispatcher、ResourceManager、JobMaster、MetricQueryService、TaskExecutor。其中Dispatcher、ResourceManager、JobMaster是JobManager进程中的Rpc服务，TaskExecutor是TaskManager进程中的Rpc服务，MetricQueryService在JobManager和TaskManager进程中都有。

其中五个最重要的接口的介绍：

Dispatcher:
- 作用: a、可以跨作业运行，它为应用提交提供了REST接口。 b、当一个应用（作业）被提交执行时，Dispatcher负责接收客户端提交的JobGraph对象，并启动一个新的JobMaster组件并将应用提交给它。 c、Dispatcher他会启动一个WebUi，用来方便地展示和监控作业执行的信息。
ResourceManager:
- 作用: 管理集群中的资源。ResourceManager 负责监控集群中的可用资源，并根据需要分配资源给作业。它协调 TaskManager 的启动和关闭，以及资源的分配和释放。
JobMaster:
- 作用: 对作业进行管理和调度。JobMaster 是每个作业的主节点，负责协调作业的执行过程。它与 ResourceManager 通信以获取资源，并与 TaskExecutor 通信以启动、管理和监控作业的任务。JobMaster 中的核心组件是 Scheduler，无论是作业的生命周期管理、作业的状态维护，还是任务的调度以及出错恢复，都是由 Schedule 来负责的。
MetricQueryService:
- 作用: 提供度量指标的查询服务。MetricQueryService 允许用户查询作业和任务的度量信息，例如吞吐量、延迟、状态大小等。它是用于监控和管理作业性能的重要组件。
TaskExecutor:
- 作用: 在 TaskManager 上执行作业任务。TaskExecutor 负责执行 TaskManager 上的任务，并与 JobMaster 通信以接收作业的任务和指令。它管理任务的执行状态、资源分配和失败处理。

RpcService

是 RpcEndpoint 的运行时环境，是Akka中ActorSystem的封装。
一个ActorSystem系统中有多个Actor，同样在Flink中一个RpcService中有多个RpcEndpoint，即多个Rpc服务。
Flink中RpcService也有多套，JobManager和TaskManager进程中都有两套RpcService。
RpcService 提供了启动Rpc服务(startServer)、停止Rpc服务(stopServer)、连接远端Rpc服务等方法。
实现类是AkkaRpcService，内有属性ActorSystem actorSystem，Map<ActorRef, RpcEndpoint> actors。

RpcServer

是Rpc服务端自身的代理对象，设计上是供服务端调用自身非Rpc方法。

了解完flink通讯模型的基本接口概念，接下来回顾一下flink的基本架构图：

客户端不是运行时和程序执行的一部分，但用于准备数据流并将其发送到JobManager。之后，客户端可以断开连接(分离模式 detached mode)，或者保持连接以接收进度报告(附加模式 attached mode)。客户机可以作为触发执行的Java/Scala程序的一部分运行，也可以在命令行使用./bin/flink run...开启进程中运行。

JobManager和taskmanager可以以各种方式启动:作为独立集群直接在机器上启动，或者在容器中启动，或者由YARN或Mesos等资源框架管理。TaskManagers连接到JobManagers，宣布它们是可用的，并分配工