Flink在YARN上的使用：使用HDFS JAR和yarn.provided.lib.dirs进行大数据处理

最新推荐文章于 2024-03-03 08:00:00 发布

VavzNvml

最新推荐文章于 2024-03-03 08:00:00 发布

阅读量665

点赞数

CC 4.0 BY-SA版权

文章标签： flink hdfs jar 大数据

本文链接：https://blog.youkuaiyun.com/VavzNvml/article/details/133081878

大数据专栏收录该内容

79 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何在YARN上使用Flink进行大数据处理，包括配置HDFS JAR和yarn.provided.lib.dirs属性。通过设置Flink的flink-conf.yaml和yarn-site.xml文件，以及提交Flink作业的命令，可以实现高效的大规模数据处理。

Flink是一个分布式流处理和批处理框架，可以在大数据环境中进行高效的数据处理和分析。在这篇文章中，我们将探讨如何在YARN上使用Flink，并使用HDFS JAR和yarn.provided.lib.dirs属性进行大数据处理。

在开始之前，确保你已经安装了Flink和YARN，并且配置正确。

首先，让我们了解一下HDFS JAR的概念。HDFS JAR是指存储在Hadoop分布式文件系统（HDFS）中的Flink应用程序的JAR文件。通过将应用程序的JAR文件存储在HDFS上，可以方便地在不同的计算节点上进行分布式处理。

要在YARN上使用HDFS JAR，我们需要在Flink的配置文件中进行一些设置。打开Flink的flink-conf.yaml文件，并添加以下配置：

execution.savepoint.path: hdfs:///flink/savepoints
execution.savepoints.externalized: true

上述配置将指定保存Flink应用程序的检查点和保存点的路径，并启用外部化保存点。

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VavzNvml

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【Flink】Flink on Yarn 翻译使用 hdfs jar yarn.provided.lib.dirs

九师兄

09-19

1152

看这个起源于一个群友的问题。群友写了UDF.jar想放到hdfs上，然后运行的时候，希望指定hdfs jar，希望能加载进去尝试使用如下方法发现不可以后面经过网友一起讨论，发现有这个参数。然后我在源码中找到如下案例顺便把整篇文章翻译了一下。

Flink大数据实时计算系列-Flink在yarn上如何使用第三方jar包

大模型与Agent智能体

05-05

1310

Flink大数据实时计算系列-Flink在yarn上如何使用第三方jar包目录 Flink on yarn 模式yarn模式使用thin jar代码文件查询 Flink on yarn 模式 Maven默认的依赖配置项中，scope的默认值是compile，compile表示被依赖项目需要参与当前项目的编译，运行周期也参与其中，打包的时候通常需要包含进去。provided参数表示打包的时候可以不用包进去，在打包时是exclude的。 yarn模式使用thin jar 在yarn上运行的程序考虑三个因

参与评论您还未登录，请先登录后发表或查看评论

Flink作业使用yarn.provided.lib.dirs参数指定依赖

qq_32068809的博客

12-17

6211

yarn.provided.lib.dirs参数如官网所描述，它能够在提交作业时从你指定的HDFS目录中获取依赖，从而不必在每次本地提交作业时都将依赖也一同提交，我们使用下试试，首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency，在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录： /opt/flink-1.14.0/bin/flink run-application \ -t yarn-application \

FLINK-启动命令2（Application 模式） -Dyarn.provided.lib.dirs

CarloPan的博客

07-18

4527

1. 背景 flink-1.11 引入了一种新的部署模式，即 Application 模式。目前，flink-1.11 已经可以支持基于 Yarn 和 Kubernetes 的 Application 模式。 2. 优势 Session模式：所有作业共享集群资源，隔离性差，JM 负载瓶颈，main 方法在客户端执行。 Per-Job模式：每个作业单独启动集群，隔离性好，JM 负载均衡，main 方法在客户端执行。通过以上两种模式的特点描述，可以看出，main方法都是在客户端执行，社区考虑到在客户端执行

flink on yarn指定第三方jar包

第一片心意的博客

01-03

1万+

flink on yarn加载第三方jar包。

Spark on YARN 模式启动后去HDFS上加载依赖包

muyingmiao的专栏

10-18

1643

1.在使用Spark on YARN模式时，发现作业提交缓慢通过官网描述：也就是说，：如果想要在yarn端（yarn的节点）访问spark的runtime jars，需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都这两个参数都没有指定，spark就会把$SPARK_HOME/jars/所有的jar上传到分布式缓存中。这也是之前任务提交特别慢的原因。 ...

Flink-Yarn安装及使用

chenlei0520的博客

02-08

1386

在YARN平台上Flink是如何集成部署的

Flink在Yarn模式部署和命令

weixin_40659514的博客

10-25

3583

flink的yarn提交模式

Flink在YARN上支持的三种部署方式及使用方式

penriver的博客

09-10

3392

前提安装yarn集群并启动配置HADOOP_CLASSPATH环境变量 export HADOOP_CLASSPATH=`hadoop classpath` Flink在YARN上支持的部署方式对于生产使用，建议Per-job or Application Mode部署Flink应用程序，因为这些模式为应用程序提供了更好的隔离。详见参见： flink on yarn Application Mode Application Mode将在YARN上启动一个Flink集群，其中应用程序j

flink on yarn使用第三方jars的方法&如何查看进程所持有jar包

Mr.Zheng的博客

01-08

4305

前言在yarn上跑的程序必须拥有代码，环境，配置。 flink on yarn模式，用户提交完jar以后，通过yarn调度队列，任务jar会被分配到某个节点，连同配置，环境，一起被分发到某个Task节点。 flink run 命令参数详情 1 参数必选： -n,--container <arg> 分配多少个yarn容器 (=taskmanager的数量) 2 参数可选： -D <arg> 动态属性

flink提交作业到yarn

chanyue123的博客

12-01

9130

讲解flink如何提交到yarn

Flink on Yarn模式部署

陈小哥cw

06-17

8567

独立（Standalone）模式由 Flink 自身提供资源，无需其他框架，这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但我们知道，Flink 是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。而在目前大数据生态中，国内应用最为广泛的资源管理平台就是 YARN 了。所以接下来介绍的是 YARN 平台上 Flink 是如何集成部署的。整体来说，YARN 上部署的过程是：客户端把 Flink 应用提交给 Yarn 的Resour

Flink加载自定义Jar包

h6lkj的专栏

03-03

1221

Flink加载自定义Jar包

Flink 动态加载 Jar 包，实现自定义算子加载执行

zx711166的博客

12-30

2665

Flink 动态加载 Jar 包，实现自定义算子加载执行动态加载Jar动态Jar调用方式动态加载Jar 对应的参数： path：Jar 的存放路径。 env：Flink 的环境实例。 classPath：动态Jar的类路径。 import java.lang.reflect.Field; import java.lang.reflect.Method; import java.net.URL; import java.net.URLClassLoader; import java.util.Array

Flink动态添加依赖Jar包提交到Yarn

upupfeng的博客

02-06

4029

背景开发的flink程序，要使用yarn-cluster的方式进行部署。程序中依赖了很多第三方jar包，不想用shade那种打包方式打成一个大jar包，然后提交。想将应用程序jar包和依赖jar包分开，依赖的jar包在提交时一起提交上去（像spark on yarn直接指定“–jars”这样），但是找了好久发现flink官方没有提供这样的方式。直接将依赖的jar包放在flink的lib目录下，可以实现，但是感觉这样会污染flink的lib包。于是找到了如下方法，可以实现类似的功能。在此记录分享一下

Flink实战(六）Flink读取Hdfs文件

最新发布

03-16

<think>好的，我现在要解决用户在YARN上配置Flink并提交WordCount.jar作业的问题。首先，我需要回忆Flink在YARN上的部署模式，主要有三种：Session、Per-Job和Application模式。用户提到的示例中引用了Application模式，所以可能需要重点讲解这种模式。接下来，用户需要配置Flink on YARN的步骤。根据引用[3]的内容，配置参数如并行度、内存等可以通过-D参数指定，替代旧有的命令行参数，比如-p。同时，文档提到了使用yarn.provided.lib.dirs来优化应用提交，这需要将Flink的依赖预先上传到HDFS，避免每次提交重复传输，减少资源消耗。然后是提交作业的命令。用户提供的示例中，引用[1]展示了使用run-application命令提交，引用[3]则给出了具体的参数配置，如设置并行度、内存、应用名称等。同时，WordCount.jar的路径和输出路径也需要正确指定。另外，用户提供的WordCount示例代码来自引用[2]，需要注意并行度的设置。例如，Source的并行度为1，执行环境并行度设为6，这可能影响任务在集群上的分布。需要提醒用户根据实际需求调整这些参数。还需要检查是否有遗漏的配置步骤，比如Hadoop配置文件的集成，确保Flink能够正确访问YARN资源。此外，可能需要指导用户如何验证配置是否成功，例如查看YARN的Web UI确认应用状态。最后，生成相关问题时要围绕配置优化、不同模式的区别、参数设置以及日志排查等方面，帮助用户扩展理解。</think>### Flink on YARN 配置与 WordCount 作业提交指南 --- #### **1. 环境准备** - **前置条件**： - 已部署 Hadoop/YARN 集群，且环境变量 `HADOOP_CONF_DIR` 或 `HADOOP_HOME` 已正确配置。 - 下载与 Hadoop 版本兼容的 Flink 发行包（如 `flink-1.17.1-bin-scala_2.12.tgz`）。 --- #### **2. Flink on YARN 配置** **核心配置项**（修改 `conf/flink-conf.yaml`）： ```yaml # 设置 TaskManager 内存（示例值） taskmanager.memory.process.size: 2048m # 设置 JobManager 内存 jobmanager.memory.process.size: 1024m # 每个 TaskManager 的 Slot 数（决定并行度上限） taskmanager.numberOfTaskSlots: 4 ``` **YARN 特定配置**（提交时动态指定更灵活）： ```bash -Dyarn.application.name="MyFlinkJob" \ -Dyarn.provided.lib.dirs="hdfs:///flink/libs" # 预上传 Flink 依赖到 HDFS 以加速提交[^3] ``` --- #### **3. 提交 WordCount 作业（Application 模式）** **命令示例**： ```bash ./bin/flink run-application -t yarn-application \ -Dparallelism.default=6 \ # 全局默认并行度 -Dtaskmanager.memory.process.size=2048m \ -Dyarn.application.name="FlinkWordCount" \ ./examples/streaming/WordCount.jar \ --input hdfs:///input/text.txt \ # 输入文件路径 --output hdfs:///output/result # 输出目录路径[^2] ``` **关键参数解析**： - `-t yarn-application`：指定部署模式为 Application 模式[^1]。 - `-D` 参数：覆盖默认配置，优先级高于 `flink-conf.yaml`。 - `yarn.provided.lib.dirs`：若配置，需提前将 Flink 的 `lib/` 和 `plugins/` 目录上传至 HDFS。 --- #### **4. 验证作业状态** - **YARN Web UI**：访问 `http://<yarn-resourcemanager>:8088` 查看应用状态。 - **Flink Dashboard**：通过 YARN 应用详情页获取 Flink JobManager 的 Web UI 地址。 --- #### **5. 代码并行度控制（参考示例）** 如引用所示，代码中可单独设置算子并行度： ```java env.setParallelism(6); // 全局并行度 DataStream<String> text = env.readTextFile(inputPath).setParallelism(1); // Source 并行度=1 ``` ---