Flink 如何与 YARN 交互请求 Container 的大数据

最新推荐文章于 2025-12-08 21:11:18 发布

幻想世界中的绚丽色彩

最新推荐文章于 2025-12-08 21:11:18 发布

阅读量119

点赞数 1

CC 4.0 BY-SA版权

文章标签：大数据 flink

本文链接：https://blog.youkuaiyun.com/BugCrusher/article/details/132369840

大数据专栏收录该内容

183 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详细介绍了Apache Flink如何与Apache Hadoop YARN交互，通过YarnResourceManager请求Container来处理大数据任务。文中包含关键代码示例，展示了资源请求的创建和发送过程，以及异常处理机制。

Flink 如何与 YARN 交互请求 Container 的大数据

Apache Flink 是一个流式处理和批处理的开源框架，它能够处理大规模的数据集。作为一个分布式系统，Flink 需要与集群管理器（如 Apache Hadoop YARN）进行交互，以请求执行任务所需的资源。在本文中，我们将探讨 Flink 如何与 YARN 交互请求 Container，并提供相应的源代码示例。

在 Flink 中，与 YARN 的交互是通过 Flink 的 YARN 资源管理器（YarnResourceManager）来实现的。YarnResourceManager 是 Flink 的一个组件，它负责与 YARN 通信，请求执行任务所需的资源，并监视任务的执行情况。

以下是一个简化的示例代码，展示了 Flink 如何与 YARN 交互请求 Container：

import org.apache.flink.configuration.Configuration</

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

幻想世界中的绚丽色彩

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【Flink】FLink 是如何与Yarn交互请求Container的

九师兄

07-11

305

最近在学习yarn，所以想看看flink on yarn 是在哪里请求container的。Hadoop YARN权威指南.pdf 第10章Apache Hadoop YARN应用程序范例。这个讲解的比较清楚。

flink on yarn的实现及交互过程

penriver的博客

09-10

1181

1 yarn 基本架构 yarn是一个资源管理与调度平台，不仅hadoop跑在上面，flink也可以直接向yarn申请资源并运行上去。 yarn使用cgroup隔离资源，实现了container。 Resource Manager组件管理集群资源。 Node Manager组件管理1台机器，在上面运行Container。 Container是一个具体容器，分配一定的CPU、内存、磁盘资源，在上面运行具体的任务 2 向yarn提交应用向yarn提交应用的交互过程，大体如下 3 Flink on Yar

参与评论您还未登录，请先登录后发表或查看评论

Flink如何和Yarn进行交互

默硕的博客

04-11

308

ResourceManager分配Container资源并启动ApplicationMaster,然后AppMaster加载Flink的Jar包和配置构建环境,启动JobManager，JobManager和ApplicationMaster运行在同一个container上。此外，AppMaster容器也提供了Flink的web服务接口。ApplicationMaster向ResourceManager申请工作资源,NodeManager加载Flink的Jar包和配置构建环境并启动TaskManager。

Apache Flink 进阶（四）：Flink on Yarn / K8s 原理剖析及实践

Ververica的博客

10-15

4276

本文根据 Apache Flink 进阶篇系列直播课程整理而成，由阿里巴巴技术专家周凯波（宝牛）分享，主要介绍 Flink on Yarn / K8s 的原理及应用实践，...

大数据开发：Flink on Yarn原理

shuimuzh123的博客

01-05

263

在流计算越来越受到重视的大趋势下，Flink框架受到的关注和重视，可以说是与日俱增，在大数据的学习当中，Flink也成为重要的一块。今天的大数据开发分享，我们主要来讲讲，Flink on Yarn原理。 Yarn架构原理 Yarn模式在国内使用比较广泛，基本上大多数公司在生产环境中都使用过Yarn模式。 Yarn的架构原理如下图所示，最重要的角色是ResourceManager，主要用来负责整个资源的管理，Client端是负责向ResourceManager提交任务。用户在Client端提

Flink on YARN启动全流程深度解析

lifallen的博客

08-14

950

Flink on YARN 启动流程包含三个阶段：1) JobManager 作为 AM 启动，客户端提交 JobGraph 并申请资源；2) TaskManager 动态分配，Flink RM 通过 YARN 获取容器并启动 TM 进程；3) 任务部署执行，JM 将任务分发到 TM 的 Slot。核心在于 Flink 通过 YARN 实现资源动态管理，其 RM 作为中介协调资源申请与任务调度，而 TM 主动连接 JM 进行任务注册。整个过程展现了 Flink 与 YARN 的深度集成机制，实现了弹性调度。

【Flink】flink提交到yarn时自定义container的提交命令

九师兄

07-03

381

在【Flink】FLink 是如何与Yarn交互请求Container的文章中，我们知道了Flink是如何启动ApplicationMaster的，以及如何申请Container的，然后在里面我们看到一个配置* 2022/8/11 下午10:19 lcc 九师兄* todo: 【Flink】flink提交到yarn时自定义container的提交命令然后使用的代码如下。

Flink on Yarn 原理剖析

hhhhhhfq的博客

04-01

2443

本文章将从 Flink 架构、Flink on Yarn 原理及实践、Flink on Kubernetes 原理剖析三部分内容进行介绍。 Flink 架构概览 1、Flink 架构概览 —— Job 用户通过 DataStream API、DataSet API、SQL 和 Table API 编写 Flink 任务，Client 端会生成一个 JobGraph。JobGraph 是由 source、map()、keyBy()/window()/apply() 和 Sink 等算子组成的。当 Jo

Flink on YARN：大数据集群部署最佳实践

Golang编程笔记的博客

10-02

820

在大数据领域，实时处理需求日益增长。Flink作为Apache顶级流处理框架，以低延迟、高吞吐和精准一次处理语义著称；而YARN（Yet Another Resource Negotiator）作为Hadoop生态的资源管理核心，负责集群资源的统一分配与调度。两者结合（Flink on YARN）能充分利用YARN的资源管理能力，实现Flink任务的动态扩缩容、高可用和多租户隔离。本文覆盖从基础概念到实战部署的全流程，适用于中大型企业的生产环境部署场景。

对称美学-od

用来自己学习，复习

12-04

404

就是第 i 个字符串 = 第 i - 1 号字符串的取反 + 第 i - 1 号字符串;取反(R->B, B->R);现在告诉你 n 和 k，让你求得第 n 个字符串的第 k 个字符是多少。根据规律：S(n) = invert(S(n-1)) + S(n-1)长度 L(n) = 2^(n-1)，前半长度 = 2^(n-2)重复这个过程，直到 n = 1，S1 = "R"接下里输入T行，每行输入两个数字，表示n, k。第 4 个字符串：BRRBRBBR。第 2 个字符串：BR。第 1 个字符串：R。

国产时序数据库供应商排名

weixin_43836476的博客

12-04

628

测试显示，在处理海量数据时，TDengine的压缩比可达10:1 - 50:1，大幅减少了存储空间。：提供了丰富的客户端工具和开发接口，支持多种编程语言，如Python、Java、C++等，方便开发者进行集成和二次开发。：在监控领域有较高的知名度和市场占有率，很多企业的监控系统采用OpenTSDB来存储和分析时序数据，尤其是在互联网企业的运维监控场景中应用较为普遍。它提供了简单易用的SQL接口，与常见的数据分析工具如Grafana等有良好的集成，生态系统在不断完善。

ElasticSearch索引red，关键字 Too many open files

weixin_42566359的博客

12-04

185

摘要：当Elasticsearch索引状态显示为red时，若发现"Too many open files"错误，表明主机文件句柄数不足。

国产时序数据库哪个靠谱

weixin_43836476的博客

12-04

420

在国产时序数据库领域，当前面临着诸多技术挑战。一方面，数据的高并发写入与查询处理能力不足。随着物联网、工业互联网等领域的快速发展，设备产生的数据量呈爆炸式增长，传统数据库难以应对每秒数万甚至数十万条数据的写入请求。测试显示，部分传统数据库在高并发场景下，写入性能会急剧下降，每秒写入数据量仅能维持在数千条，严重影响了数据的实时采集与存储。另一方面，数据存储成本过高。时序数据具有海量、高冗余的特点，传统数据库的存储方式会占用大量的磁盘空间，增加了企业的硬件采购与维护成本。数据表明，一些传统数据库存储相同规模的时

RocketMQ消息可靠性实战：从发送到消费的全流程保障

喜欢炒股的码农

12-03

558

业务场景RabbitMQ问题RocketMQ优势支付系统网络抖动导致12%消息丢失SYNC_FLUSH + 自动重试 = 0%丢失订单系统消费端重试风暴Broker内置熔断 = 恢复时间20秒金融交易1000万条/天丢失12万条RocketMQ实测丢失率=0%

RabbitMQ 完全指南

最新发布

u011265143的专栏

12-08

660

深入解析 RabbitMQ 的底层原理、数据存储、数据结构、作用与使用

CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 （一）

QXXDYL的博客

12-04

481

为了解决如上出现的问题，需要在CDH 6.3.2 版本上编译支持java8，能对paimon 1.1.1 的表进行增删改查等操作。为了解决CDH 6.3.2 默认的 Hive sql on Spark 和 Spark sql （Spark版本为2.4.0）无法写入修改Paimon 1.1.1 版本的表格数据的问题。在终端执行下述语句，用于验证hive sql on spark对paimon表数据的更新操作。发现插入数据出现报错，因此hue上不能进行数据的插入，因此我在Flink SQL进行数据的插入。

【开题答辩全过程】以陪诊就医小程序设计与实现为例，包含答辩的问题和答案

shiji0319的博客

12-07

676

本文介绍了一个陪诊就医小程序的毕业设计项目，采用Java+SpringBoot+MySQL技术栈开发，包含用户端和管理端功能模块。针对老年人就医痛点，系统创新性地将挂号预约与专业陪诊服务结合，重点解决了陪诊师排班冲突校验等技术难点。答辩过程展示了项目选题依据、技术实现方案及进度安排，评委肯定了项目的社会价值和技术可行性，并提出改进建议。文章最后提供开题报告参考资料获取方式，建议学生独立完成毕设，也可寻求选题指导和资料参考服务。

Flink学习笔记：窗口

K_Ohaha的博客

12-06

1043

Flink窗口机制是实时数据处理的核心概念，主要分为Keyed Window和Non-Keyed Window两类。根据数据划分依据可分为时间窗口和计数窗口，按规则又分为滚动窗口、滑动窗口、会话窗口和全局窗口四种类型。时间窗口最常用，其中滑动窗口以固定步长滑动，允许元素跨窗口计算；滚动窗口是滑动窗口的特例，窗口间无重叠；会话窗口根据数据间隔动态决定窗口大小；全局窗口则处理所有数据。每种窗口类型都提供了灵活的API配置选项，支持不同业务场景的实时计算需求。

RabbitMQ工作队列模式理解

qq_32021001的博客

12-08

消费者之间竞争消费消息，即队列中的每一条消息只可能被一个消费者消费。工作队列模式是一个生产者、一个队列，有一个或者多个消费者。生产端：发送多条消息测试。

flink在yarn job上的提交流程

12-31

### Flink YARN Job 提交流程详解 #### 任务提交准备阶段在YARN模式下，Flink作业的提交过程始于客户端。当用户通过命令行或其他方式触发作业提交时，Flink会先进行一系列准备工作，包括但不限于读取配置文件、设置默认参数等操作[^1]。 #### 创建集群环境接着，Flink依据指定的目标执行环境（如`yarn-session`），利用SPI机制加载相应的`PipelineExecutorFactory`实例，并从中挑选出适合当前场景使用的具体工厂类——对于YARN而言即为`YarnJobClusterExecutorFactory`。这一过程中还涉及到对目标集群状态的探测与资源评估工作[^4]。 #### 启动ApplicationMaster (AM) 一旦选择了合适的executor factory之后，便会创建并启动一个名为Application Master的应用程序主控进程。该进程负责向YARN ResourceManager请求容器资源用于部署TaskManager节点，并监控整个应用生命周期内的健康状况变化情况。此外，在此期间也会初始化必要的内部服务组件以便后续通信协调之需[^3]。 #### 资源申请与分配随着AM的成功注册登记，便进入了最关键的一步：根据预定义策略动态调整所需计算资源的数量规模并向RM发起正式索求指令；与此同时还要确保所获授权能够满足实际业务需求而不至于造成浪费闲置现象发生。值得注意的是，这里的资源不仅限于CPU核心数或内存大小这样的硬件指标，还包括网络带宽在内的多种维度考量因素。 #### TaskManager 部署获得批准后的资源会被用来构建一个个独立的工作单元——也就是所谓的Container容器实体对象，它们承载着真正意义上的数据处理逻辑运算任务(TaskManagers)，并通过RPC远程调用协议完成彼此间的消息传递交互活动。此时此刻，所有的前期筹备环节均已就绪，只待最后一步正式启动应用程序主体部分即可。 #### 应用程序运行期管理至此为止，整个提交流程基本结束，进入到了稳定运作时期。在此期间内，除了持续不断地接收来自外部的数据流输入之外，还需要密切关注各个子系统的性能表现水平，及时响应可能出现的各种异常事件以保障整体服务质量不受影响。另外值得一提的是，针对某些特殊应用场景下的特定要求（比如调整作业并行度等），也可以借助CLI工具随时作出相应变更操作[^2]。 ```bash flink modify <job_id> -p/--parallelism p ```