海豚调度任务如何判断任务成功还是失败(源码)?

本文介绍了在海豚调度中遇到的任务成功但显示失败的情况,问题源于海豚调度通过YARN API获取应用状态来判断任务完成情况。当YARN API返回非200状态码(例如404),原因是应用被清理导致无法找到。解决方案是调整YARN的资源管理器最大已完成应用数配置。此外,还分析了可能因短时间内大量应用完成被清理的场景,并建议根据集群情况适当增大配置值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

在海豚调度中,大家肯定会遇到一种情况就是,任务成功,但是显示失败。是不是感觉很困扰。

我现在也遇到这个情况。我们公司开发人员在执行之前老代码(hive引擎)的时候。偶尔成功偶尔失败。

海豚调度到底是如何判断任务的成功和失败的?

异常:

查看海豚的worker日志。

光看日志报错,各位大佬基本就能猜到了吧~

没错,海豚在执行完,获取执行这个任务中的所有application_id。然后通过yarn的API。去获取最终状态。那是不是呢?我们看源码。

源码位置:org/apache/dolphinscheduler/server/worker/task/AbstractCommandExecutor.java

 上图:是否成功呢?获取yarn的application状态。isSuccessOfYarnState下的getApplicationStatus方法。

 上图:和各位大佬想的一样。的确是获取application的finalStatus的值。来判断的。

上图: 没错,是通过yarn的API去获取状态的(http://rm地址:端口/ws/v1/cluster/apps/)

当API返回状态码不是200的时候,直接抛出异常。所以直接报错了~

解决:

回到最初的问题。我的这个任务,为什么返回码判断是404呢?

因为没有找到我的appplication。

为什么没有找到呢?

因为yarn设置的API里。关于final状态保存策略有两种

一种是数量,一种是时间。我们配置里时间是保留7天。数量保留是150条。

 猜测,如果时间段内有大量完成的app会被挤出页面

如果当前任务特别多的时候。hive脚本生成了20个application_id。这时候任务同时完成特别多。那么这20个生成完会被检测的时候,正好被刷掉了。

10点0分执行hive脚本。10点20执行结束。这个任务一共生成了20个application_id。但是这20分钟内其他任务一共执行完成超过150个application_id。会把这20个application_id刷掉。

这时候检测会找不到20个application_id。

解决方式:

yarn.resourcemanager.max-completed-applications可以设置大一点这个值。

设置多大合适呢?看你们集群而定。

有的人可能不是这个原因。具体什么原因可以看一下海豚的worker的日志。

因为海豚是中国人开发的,相对比较容易定位。

希望可以帮助到大家。坚持原创。

### 如何在海豚调度 (DolphinScheduler) 中配置 Flink SQL #### 配置环境准备 为了能够在 DolphinScheduler 中运行 Flink SQL 作业,需要先完成基本的环境设置。这包括但不限于安装并配置好 Apache Flink 和 DolphinScheduler。 对于 DolphinScheduler 的具体配置文件 `application.yaml`,需确保其能够正确连接至所使用的 MySQL 实例[^1]: ```yaml datasource: driver-class-name: com.mysql.cj.jdbc.Driver url: jdbc:mysql://bigdata01:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&useSSL=false&allowPublicKeyRetrieval=true username: dolphinscheduler password: 123456 ``` #### 初始化数据库结构与数据 按照官方文档指导,在 MySQL 数据库中的 `dolphinscheduler` 数据库里构建必要的表结构以及插入初始的基础数据。此过程涉及执行位于项目源码包内的特定路径下的 SQL 脚本文件来实现元数据 schema 创建及版本升级时所需的变更操作[^2][^3]。 #### 添加 Flink 组件支持 为了让 DolphinScheduler 支持提交 Flink 类型的任务,还需要额外引入相应的依赖项和支持组件。通常情况下,这意味着要下载对应版本的 Flink 发行版,并将其集成到工作流引擎当中去。此外,还需注意调整相关插件或扩展模块以适应具体的业务需求场景。 #### 编写 Flink SQL 任务定义 当上述准备工作完成后,则可以在 DolphinScheduler 上创建新的工作任务节点用于表示即将被执行的一个独立 Flink SQL 查询逻辑单元。此时应该利用平台提供的图形化界面或者 API 方式指定该节点类型为 "Flink" 或者更精确地说是带有 SQL 特性的子类别选项之一;接着输入实际待处理的数据转换语句作为主要负载内容部分。 考虑到可能存在的参数传递需求,可以通过自定义属性字段的方式向下游计算框架注入外部变量值,从而增强灵活性和可维护性特性[^4]。 例如,假设有一个简单的 WordCount 程序被打包成了 JAR 文件形式存储于 HDFS 上某个位置 `/user/flink/jars/wordcount.jar` ,那么就可以这样编写一个包含命令行参数在内的完整调用表达式: ```bash flink run -c org.apache.flink.streaming.examples.wordcount.WordCount /user/flink/jars/wordcount.jar --input hdfs:///inputs/text.txt --output hdfs:///outputs/result.csv ``` 而对于纯文本式的 Flink SQL 来说,可以直接将查询字符串填入任务编辑框内即可生效。 #### 启动服务实例 最后一步便是正式启动整个分布式批处理流水线了——即依次开启 Master Server(s),Worker Node(s) 并监控它们之间的协作状况直至目标程序成功结束为止。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值