oozie-深入探讨工作流

本文深入探讨了工作流应用的核心组件——DAG及其如何通过决策、分叉和合并节点来协调诸如MapReduce、Pig脚本和其他工作流任务。详细解释了如何利用任务属性文件传递参数,并介绍了工作流应用的部署方式,即以ZIP格式封装XML定义、JARs及其他所需资源。此外,阐述了如何通过oozie命令启动任务,以及监控工作流运行状态的多种方法,包括WEBConsole、命令行工具和API接口。讨论了工作流中支持的循环机制的局限性,以及M/R任务配置参数的使用,强调了工作流状态管理,包括预准备、运行、暂停、成功、终止和失败状态。最后,介绍了Oozie在处理失败任务时的重试策略,以及如何通过HTTP回调通知来监控工作流事件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一个工作流应用主要是靠DAG来协调actions,如M/R、Pig、子工作流等;

流程控制,是通过decision、fork 和 join来控制的,循环工作流目前Oozie还不支持;

Actions 和 decisions 可以通过任务的属性文件来传递参数,如actions 输入/输出.通过${VARS}来访问属性文件定义的参数;

一个工作流应用是一个ZIP格式的文件,ZIP文件中包含了工作流定义(XML 文件)、Jars、等应用要用到的资源;

要运行工作流任务,通过oozie命令来提交任务;

监控工作流运行情况,可以通过WEB Console、命令行工具、及WebService API 或Java API;

当提交M/R,JobConf类用到的配置参数,都需要在工作流中定义,在配置中要指定mapper,reducer(combiner),output key , output value 等hadoop 配置文件属性;

工作流的状态包括: PREP , RUNNING , SUSPENDED , SUCCEEDED , KILLED and FAILED ;

如果action启动失败,Oozie会根据失败类型进行重试;

Oozie可以支持HTTP 回掉通知,在action开始/结束/失败事件及工作流结束/失败事件;

如果工作流任务失败,工作流任务会重新提交,会跳过已经完成的actions。重新提交工作流时,开发者可以更新补丁;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值