提交flink任务失败记录

写代码当牛马

已于 2023-12-05 14:39:05 修改

阅读量523

点赞数

文章标签： flink zookeeper 大数据

于 2022-06-17 17:59:43 首次发布

本文链接：https://blog.youkuaiyun.com/m0_58149226/article/details/125337956

版权

博客作者通过分析log日志发现，clickhouse的jdbc依赖的guava-19.0.jar与集群中的guava-27.0.jar版本冲突，导致运行错误。解决方法是下载guava-27.0.jar替换低版本，从而消除冲突。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

报错信息如下:

发现并不能看出任何问题(一顿百度,都是奇奇怪怪的回答,都没解决)

还是要仔细观察log日志才能发现问题,不要乱百度

yarn上查看logs日志的报错信息

发现clickhouse的jdbc依赖的这个guava-19.0.jar 是小版本

任务打包提交到集群和集群的guava-27.0.jar,这两个版本冲突,导致一直报错

可以去网上下载这个27的jar替换一下就没问题

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

写代码当牛马

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Flink 重启策略和故障恢复策略

主要分享大数据相关的知识，如Spark、Hudi

06-24

372

主要总结 Flink 重启策略。

【Flink】Flink 提交任务报错 File does not exit /tmp/application_xxx-flink-conf.yml

九师兄

09-12

1526

Flink 升级报错这个错误可能有什么原因导致的呢？我从Hadoop2升级到Hadoop3，一切都配置完成了，发布的时候有这个问题，我是不是遗漏了什么配置？根据报错找到相应的源码这个地方为什么上面明明创建了本地配置文件，然后下面注册本地资源的时候报找不到该本地配置文件呢？这个方法不应该返回true的最终解决：仔细检查了下配置，fs.scheme用了其他位置的设置。结果判断出了是remotePath。

参与评论您还未登录，请先登录后发表或查看评论

flink客户端提交任务报错

wudonglianga的专栏

06-07

2927

【代码】flink客户端提交任务报错。

分享一个Flink checkpoint失败的问题和解决办法

Java烂猪皮

09-18

2965

走过路过不要错过点击蓝字关注我们接触Flink一段时间了，遇到了一些问题，其中有一个checkpoint失败导致作业重启的问题，遇到了很多次，重启之后一般也能恢复正常，没有太在意，最近2...

Flink任务提交问题汇总

微信搜：import_bigdata，大数据领域硬核原创作者

02-24

2103

全网最全大数据面试提升手册！flink 任务提交问题汇总1. 提交flink自带任务WordCount.jar遇到的问题：2. 提交flink 批处理任务时遇到的问题3. flink定时任务，mysql连接超时问题4. flink checkpoint 恢复失败5. yarn 增加并行任务数量配置6. 流处理flink程序在hadoop集群跑了一段时间莫名挂掉1. 提交flink自带任务WordC...

Flink的web ui提交任务

weixin_52731998的博客

03-23

3912

文章目录打包提交任务杀死8888 打包先在idea中给代码写完，打成一个jar包用来提交任务提交任务进入web ui界面master 8081 点击add new 找到刚才打好的jar包位置选择jar包类的话直接从idea中Copy Reference即可点击submit 提交完成杀死8888 有时候我们打开8888端口显示已经被占用这时候我们可以将其杀死 ps aux | grep 8888 显示所有端口号杀死 kill -9 35704 ...

spark提交作业到yarn队列报错：hadoop.yarn.exceptions.YarnException

07-08

3871

报错详情： Exception in thread "main" org.apache.hadoop.yarn.exceptions.YarnException: org.apache.hadoop.security.AccessControlException: User amrcloud does not have permission to submit application_1585639257391_0011 to queue default at org.apache.hadoop.ya

Flink学习笔记（三）：任务提交详细流程

gentlewei的博客

02-05

4738

文章目录1.Flink多种提交方式对比1.1 local模式1.1.1 纯粹的local模式运行1.1.2 local使用remote的方式运行1.1.3 本地提交到remote集群1.2 standalone模式1.3 yarn模式1.3.1 yarn-session1.3.2 yarn-cluster2.flink命令参数详解3.flink on yarn作业提交详细流程 1.Flink多种提...

Flink的多种提交方式

热门推荐

Widsom的博客

10-31

2万+

Flink的多种提交/运行方式 Flink具有多种提交方式，比如：常用的local模式，stantalone模式，yarn模式，k8s等。这里主要对比local，stantalone，yarn三种提交方式。一、本地（local）模式，仅开发使用 1.1 纯粹的local模式运行这就是直接运行项目中的代码的方式提交： public class TestLocal { public st...

flink 任务提交问题汇总

xiaobai_gongzi的博客

02-04

9521

flink 任务提交问题汇总1、提交flink自带任务WordCount.jar遇到的问题： 1、提交flink自带任务WordCount.jar遇到的问题： - 问题描述：最近在提交flink项目example下WordCount.jar批处理任务时遇到以下问题： The main method caused an error: org.apache.flink.runtime.concurrent.FutureUtils$RetryException: Could not complete the

Flink SQL:INSERT Statements

weixin_48813624的博客

11-07

1391

Flink SQL:INSERT Statements

Flink报错：does not exist or the user running Flink (‘root‘) has insufficient permissions to access it

あずにゃん梓喵的博客

07-19

4161

日萌社人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）实际任务会被分发到 taskmanage 的机器中，计算结果根据会保存到 taskmanage 的机器下，不会在 jobmanage 的机器下。因此需要把所读取的本地文件发送到每台taskmanage机器和jobmanage机器中，否则会报错FileNotFoundException和IOException，比如 does not exist or the us

Flink SQL 相关问题

奔跑的蜗牛AZ的博客

08-09

1259

报错1： Flink SQL> select 'hello world'; [ERROR] Could not execute SQL statement. Reason: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit JobGraph. 未启动 Flink集群，先启动Flink集群再进入客户端执行 1，启动集群 ./start-cluster.sh 2，启动客户端 ./sql-client.sh e

一次flink任务重试失败的问题分析

hncscwc的博客

11-16

1811

【背景】在研究flink任务失败重试的过程中，遇到了一个问题，具体表现为：在任务重试时，出现与NN连接失败，触发新的一次重试，然后重复此流程，直到达到重试上限后，任务失败退出。本文就总结下整个问题的分析过程，以及涉及到的相关知识点。【问题分析过程】首先查看了任务的日志，发现有如下关键信息：INFO org.apache.hadoop.io.retry.RetryInvocationHandler ...

Flink的DataSet模式提交作业报错

站上巨人的肩膀

07-07

977

Flink的DataSet批式处理提交Web任务报错问题

【Flink】flink 升级 the given -yarn-cluster does not contain a valid port

九师兄

06-04

815

1.场景1 1.1 概述在本次场景中，我是从flink 1.9升级到1.12.4 升级请参考：【Flink】Flink 从 1.9.1 版本升级到 1.12.4 版本的注意事项以及过程然后发下提交命令变化了，然后报错了这个 Flink ： Flink run yarn 报错 could not build the program from jar file -ynm 根据这个我将参数一个一个的去掉，最后剩下 ...

Flink】Flink连接prometheus 端口报错 Invalid host/port configuration. Host xxx Port -1

九师兄

07-03

1431

在配置Flink以向Prometheus Pushgateway报告指标时，仔细检查每个配置项的数据类型是非常重要的。即使是小的拼写错误或类型不匹配也可能导致难以诊断的问题。希望这篇文章能帮助遇到类似问题的开发者快速定位并解决问题，从而顺利实现Flink与Prometheus的集成。

Flink 会话模式Yarn部署完成后无法提交作业

qq_44540985的博客

12-09

1493

Flink 会话模式Yarn部署完成后无法提交作业

Flink 任务提交失败 Could not deploy Yarn job cluster

Baron_ND的博客

09-08

1万+

1.Flink提价任务，读取Hbase数据和hdfs数据，需要单独倒入一些hbase的依赖jar，所以加入了maven依赖，本地能正常测试运行，但是发布到yarn上运行报错，所以测试读取hdfs文件的时候，去掉依赖就可以了。 2.加入打包依赖的时候，注意加入过滤不需要的文件，不然会报错。 org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not depl.

八种flink任务告警方式

最新发布

01-21

### Flink 任务告警方法及其实现 #### 方法一：基于日志文件的监控通过配置 Log4j 或其他日志框架，可以设置特定的日志级别来捕获错误信息并触发告警。当检测到 ERROR 或 WARN 级别的日志条目时，可以通过邮件或其他即时通讯工具发送通知给管理员。 ```java logger.error("Task failed due to an exception", e); ``` 这种方法依赖于良好的日志记录习惯以及有效的日志解析能力[^1]。 #### 方法二：利用 Metrics API 实现性能指标监测 Apache Flink 提供了一套内置的 metrics system 来收集作业执行期间的各种统计信息。开发者可以根据这些数据设定阈值，在超过预设范围时发出警告信号。 ```java env.getConfig().disableSysoutLogging(); env.configureMetricsScopeInfo(scope, "myJob"); MetricGroup metricGroup = env.getMetricGroup(); metricGroup.gauge("customGaugeName", new Gauge<Integer>() { @Override public Integer getValue() { return someValue; } }); ``` 这种方式能够及时发现潜在问题所在，并采取相应措施加以解决[^2]。 #### 方法三：集成外部报警服务（如 Prometheus + Alertmanager） Prometheus 是一款开源的时间序列数据库，常用于微服务架构下的监控场景；而Alertmanager 则负责管理由前者产生的各类预警事件。两者结合起来可用于构建高度定制化的Flink 应用程序健康状况监视体系。安装部署完成后只需简单几步即可完成对接： - 启动参数中加入 `metrics.reporter.prom.class=org.apache.flink.metrics.prometheus.PrometheusReporter`； - 配置好对应的 endpoint 地址以便 prometheus 可以拉取到 flink 的 metrics 数据； - 编写 alert rules 文件定义何时何地应该触发什么样的提醒动作。上述操作均已在官方文档中有详细介绍[^3]。 #### 方法四：自定义 SourceFunction 中断逻辑如果应用程序本身具备较强的业务特性，则可以在 source function 层面添加额外判断条件，一旦满足即刻终止整个流处理过程并向外界传达异常情况的发生。 ```scala class MySource extends RichParallelSourceFunction[String]{ override def run(ctx: SourceContext[_]): Unit ={ while (!isCanceled){ try{ val record = fetchRecord() ctx.collect(record) }catch { case ex: Exception => println(s"Error occurred during fetching records:${ex.getMessage}") cancel() } } } override def cancel():Unit={ super.cancel() } ``` 这种做法虽然直接有效但也容易造成资源浪费，因此需谨慎考虑适用场合。 #### 方法五：借助 Checkpointing 和 Savepoints 功能恢复失败节点 Checkpoint 定期保存正在运行的任务状态快照至持久化存储介质上；savepoint 类似但允许手动控制存档时机。二者均可帮助快速定位故障源头并通过重启的方式恢复正常运作模式而不丢失任何已处理过的输入项。启用 checkpoint 设置如下所示: ```yaml execution.checkpointing.interval : 60s state.backend.type : rocksdb restart-strategy.failure-rate.max-failures-per-interval : 3 ``` 以上配置片段摘录自实际生产环境中的最佳实践案例集锦。 #### 方法六：采用 Side Output 处理旁支数据流 Side output 允许我们将不符合预期标准的数据单独分流出来做进一步分析或特殊对待。比如遇到脏数据时可以选择将其暂存在 side stream 而不是立即抛出异常中断主线程工作进度。创建侧输出标签对象实例代码如下： ```java OutputTag<String> dirtyDataTag = new OutputTag<>("dirty-data"){}; DataStream<Tuple2<Long, String>> mainStream = ... mainStream.process(new ProcessFunction<...>(...) { private transient ListState<String> listState; @Override public void open(Configuration parameters) throws Exception { ValueStateDescriptor<String> descriptor = new ValueStateDescriptor<>(...) listState = getRuntimeContext().getListState(descriptor ); } @Override public void processElement(ProcessFunction<..., ...>.Context ctx, Collector<Tuple2<Long, String>> out) throws Exception { if (isValid(input)){ out.collect(Tuple2.of(timestamp , input)); }else{ ctx.output(dirtyDataTag,"Invalid data:" +input); } } }).getSideOutput(dirtyDataTag).print(); // 打印sideoutput的结果 ``` 这段脚本展示了如何优雅地分离正常与非正常的两条不同走向的信息传递路线图谱。 #### 方法七：运用 Watermark 控制时间窗口边界 Watermarks 表达的是事件发生的先后顺序关系而非绝对时刻点位。合理规划 watermark generator 参数有助于提高系统的容错性和灵活性，防止因乱序到达而导致误判进而影响最终决策准确性。下面是一个简单的周期性生成固定延迟水印的例子： ```java stream.assignTimestampsAndWatermarks( new BoundedOutOfOrdernessTimestampExtractor<Event>(Time.seconds(5)) { @Override public long extractTimestamp(Event element) { return element.timestamp; }}); ``` 此处假设所有上游组件都能保证不超过指定时限内提交最新版本号，否则可能引起连锁反应致使整体结构失衡紊乱不堪收拾的局面出现。 #### 方法八：结合 Tracing 工具进行全链路跟踪诊断 Distributed tracing 技术使得跨多个独立进程之间的调用链条变得清晰可见易于理解掌握全局视角下各个部分之间相互作用规律特征。Jaeger、Zipkin 等知名项目都支持同 Apache Flink 平台无缝衔接从而达成这一目标。为了开启 Zipkin 收集器功能，需要先引入相应的 Maven 依赖库包： ```xml <dependency> <groupId>io.zipkin.brave</groupId> <artifactId>brave-instrumentation-http</artifactId> <version>${zipkin.version}</version> </dependency> <dependency> <groupId>io.zipkin.reporter2</groupId> <artifactId>zipkin-sender-okhttp3</artifactId> <version>${zipkin.sender.okhttp3.version}</version> </dependency> ``` 之后按照官方指引逐步调整应用内部接口设计使之兼容远程上报协议格式要求即可。