Oozie自学（二）-运行job、function、workflow、coordinnate

最新推荐文章于 2022-03-11 13:59:45 发布

原创最新推荐文章于 2022-03-11 13:59:45 发布 · 2.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#function #Oozie #workflow #coordinate

Hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了Apache Oozie工作流调度系统的安装配置、核心概念、工作流定义及控制流节点等内容，帮助读者深入理解Oozie如何协调Hadoop生态中的各种任务。

使用自带的 oozie-examples.tar.gz运行oozie.

解压 oozie-examples.tar.gz 到本地系统中，
将examples目录文件拷贝到hdfs系统中

   $ hadoop hdfs  -put examples examples

注意:如果examples已经存在hdfs系统，必须将之前的进行删除,否则会拷贝失败。

1. 添加bin/ 到环境变量中

2.解压oozie-sharelib的tar包,将其拷贝到hdfs系统中的Oozie的根目录下。

   $ hadoop hdfs -put share share

3.系统设置的案例 JobTracker（ResourcManager）是localhost：8021和NameNode为hdfs://localhost:8020。实际的值不同时，我们需要在examples的目录中配置正确的值。job.properties

每个案例都一个文件夹,都会有程序的配置文件Xml,和job.properties文件提交任务的和JAR文件所需要的。

每个系统案例都会默认输出到examples/output-data/${EXAMPLE_NAME} directory。

job.properties必须是一个本地文件，不能在HDFS系统中。

启动一个job

   $ bin/oozie job -oozie http://hadoop.com:11000/oozie -config examples/apps/map-reduce/job.properties -run

job任务编号

   job: 0000001-170331194520545-oozie-huan-W

查看job信息

    $ oozie job -oozie http://hadoop.com:11000/oozie -info 0000001-170331194520545-oozie-huan-W

     WorkflowName: map-reduce-wf
AppPath      : hdfs://hadoop.com:8020/user/huangxgc/examples/apps/map-reduce/workflow.xml
Status        : RUNNING
Run           :0
User          : huangxgc
Group         :-
Created       :2017-03-3113:02 GMT
Started       :2017-03-3113:02 GMT
LastModified:2017-03-3113:26 GMT
Ended         :-
CoordAction ID:-

web网页查看运行状态:：

http://hadoop.com:11000

marperduce的ResourceManager

http://hadoop.com:8088

为了避免在每次输入 -oozie命令时输入http:localhost:11000/Oozie，我们可以配置OOZIE_URL环境变量

    $ export OOZIE_URL="http:// :11000/oozie"

本地Oozie示例，Oozie提供了Java的API。

示例：

    import org.apache.oozie.local.LocalOozie;
import org.apache.oozie.client.OozieClient;
import org.apache.oozie.client.WorkflowJob;

import java.util.Properties;

...
//启动本地Oozie 
LocalOozie.start（）;

//获得一个OozieCLient对象 
OozieClient wc =LocalOozie.getClient（）;

//创建工作流作业配置并设置工作流应用程序路径
    Properties conf = wc.createConfiguration（）;
    conf.setProperty（OozieClient.APP_PATH，"hdfs://hadoop.com:8020/user/huangxg/my-wf-app”）; 

//设置工作流参数
    conf.setProperty（"ResourceManager"，"hadoop.com:8032"）;
    conf.setProperty（"inputDir","/user/huangxgc/indir"）;
    conf.setProperty（"outputDir","/user/huangxgc/outdir"）;
...
。
//提交并启动工作流作业
String jobId = wc.run（conf）;
System.out.println（"Workflow job submitted"）;

//等待工作流作业每10秒钟完成打印状态
    while（wc.getJobInfo（jobId）.getStatus（）==Workflow.Status.RUNNING）{
System.out.println（"Workflow job running ..."）;
Thread.sleep（10 *1000）;
}

//打印工作流作业的最终状态
System.out.println（“工作流作业完成...”）;
System.out.println（wf.getJobInfo（jobId））;

// stop local Oozie 
LocalOozie.stop（）;
...

Oozie的功能规范：

Oozie除了自身动作节点以外还支持9种动作扩展：

    // 4.0.0版本的Oozie
EmailAction
ShellAction
HiveAction
SqoopAction
SshAction
DistCpAction
Writing a CustomActionExecutor
//4.3.0支持Spark 动作
Hive 2 Action
Spark Action

Oozie Specification, a Hadoop Workflow System

oozie的规范，hadoop的工作流系统

Action : An execution/computation task (Map-Reduce job, Pig job, a shell command). It can also be referred as task or 'action node'.

Workflow : A collection of actions arranged in a control dependency DAG (Direct Acyclic Graph). "control dependency" from one action to another means that the second action can't run until the first action has completed.

Workflow Definition : A programmatic description of a workflow that can be executed.

Workflow Definition Language : The language used to define a Workflow Definition.

Workflow Job : An executable instance of a workflow definition.

Workflow Engine : A system that executes workflows jobs. It can also be referred as a DAG engine

Workflow Action Nodes

3.2.7 Java Action

工作流的定义the workflow definition

A workflow definition is a DAG with control flow nodes (start, end, decision, fork, join, kill) or action nodes (map-reduce, pig, etc.), nodes are connected by transitions arrows.（转换箭头连接）
The workflow definition language is XML based and it is called hPDL (Hadoop Process Definition Language).（hadoop过程定义语言）
Refer to(参阅) the Appendix A（附录A） for theOozie Workflow Definition XML Schema . Appendix B has Workflow Definition Examples .

Oozie不支持工作流定义中的循环，工作流定义必须是严格的DAG。

工作流节点
- 工作流节点分为控制流节点和动作节点：
  - 控制流节点：控制工作流和工作流作业执行路径的开始和结束的节点。
  - 动作节点：触发执行计算/处理任务的节点。

节点名称和转换必须符合以下模式= [a-zA-Z] [\ -_ a-zA-Z0-9] * =，最多20个字符。

Contral Flow Nodes(控制流节点) 6个Node
- 开始和结束节点——开始、结束和终止；
- 执行路径节点——决策、分支和连接

Control flow nodes define the beginning and the end of a workflow ( the start , end and kill nodes) and provide a mechanism to control the workflow execution path ( the decision , fork and join nodes).

= Start Control Node

一个工作流任务的入口，一个工作流必须一个start node。

语法：：

    <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.5">
  ...
<startto="[NODE-NAME]"/>
  ...
</workflow-app>

= End Control Node

结束节点是表明任务成功完成，当任务到达end，任务就成功完成。

语法：

    <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.5">
    ...
<endname="[NODE-NAME]"/>
    ...
</workflow-app>

= Kill Control Node

终止节点允许工作流任务终止自己，到达kill的任务表明，最后完成err.

语法：

    <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.5">
    ...
<killname="[NODE-NAME]">
<message>[MESSAGE-TO-LOG]</message>
</kill>
    ...
</workflow-app>

message描述任务终止的原因

kill node 没有过渡元素，因为kill执行完，任务已经被终止了。

= Decision Control Node

decision能都够在工作路径上执行选择，可以看做是switch-case语句，在执行列中遇到true时开始执行，当没有遇到true时，执行默认路径。
Predicates解析EL表达式，将其解析为bool类型，如：

      ${fs:fileSize('/usr/foo/myinputdir') gt 10* GB}

语法：

     <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.5">
    ...
<decisionname="[NODE-NAME]">
<switch>
<caseto="[NODE_NAME]">[PREDICATE]</case>
            ...
<caseto="[NODE_NAME]">[PREDICATE]</case>
<defaultto="[NODE_NAME]"/>
</switch>
</decision>
    ...
</workflow-app>

所有的decision节点，必须包含default to ，（默认节点），防止没有返回true时，进入kill node

= Fork and Join Control Nodes

fork 分支，将一个节点分成多分

Join 连接将多个节点连接成一个node

语法：

     <workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.5">
...
<fork name="[FORK-NODE-NAME]">
<path start="[NODE-NAME]"/>
...
<path start="[NODE-NAME]"/>
</fork>
...
<join name="[JOIN-NODE-NAME]" to="[NODE-NAME]"/>
...
</workflow-app>

fork中的元素节点的为，将要并发执行的节点名称

join的名称为fork执行完后跳跃的目标

示例：

      <workflow-app name="sample-wf" xmlns="uri:oozie:workflow:0.5">
...
<fork name="forking">
<path start="firstparalleljob"/>
<path start="secondparalleljob"/>
</fork>
<action name="firstparallejob">
<map-reduce>
<job-tracker>foo:8021</job-tracker>
<name-node>bar:8020</name-node>
<job-xml>job1.xml</job-xml>
</map-reduce>
<ok to="joining"/>
<error to="kill"/>
</action>
<action name="secondparalleljob">
<map-reduce>
<job-tracker>foo:8021</job-tracker>
<name-node>bar:8020</name-node>
<job-xml>job2.xml</job-xml>
</map-reduce>
<ok to="joining"/>
<error to="kill"/>
</action>
<join name="joining" to="nextaction"/>
...
</workflow-app>

= Workflow Action Nodes 工作流的动作节点

动作节点是工作流触发执行计算/处理任务的机制。

http://oozie.apache.org/docs/4.3.0/WorkflowFunctionalSpec.html#a3.1.5_Fork_and_Join_Control_Nodes

Oozie的action中，执行完之后，才能再次进行下一个工作流节点。

Map-Reduce Action

A map-reduce action can be configured to perform file system cleanup and directory creation before starting the map reduce job. This capability enables Oozie to retry a Hadoop job in the situation of a transient failure (Hadoop checks the non-existence of the job output directory and then creates it when the Hadoop job is starting, thus a retry without cleanup of the job output directory would fail).

The workflow job will wait until the Hadoop map/reduce job completes before continuing to the next action in the workflow execution path.

The counters of the Hadoop job and job exit status (=FAILED=, KILLED or SUCCEEDED ) must be available to the workflow job after the Hadoop jobs ends. This information can be used from within decision nodes and other actions configurations.

The map-reduce action has to be configured with all the necessary Hadoop JobConf properties to run the Hadoop map/reduce job.

示例：MapReduce中的WordCount工作流。实际应用不能输入注释

     <workflow-app xmlns="uri:oozie:workflow:0.5" name="myoozie-wordcount-wf">
<start to=mr-node-wordcount"/>
<action name="mr-node-wordcount">
<map-reduce>
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<!--注意，实际的workflow中不能使用注释-->
<!--删除mapreduce的输出目录-->
<prepare>
              <!--可以在job.properties中对目录环变量进行重新配置--> 
<delete path="${nameNode}/${wf:user()}/${examplesRoot}/output-data/${outputDir}"/>
</prepare>
<!--使用的配置文件-->
<configuration>
<!--启用新的API，Oozie默认使用旧的API-->
<property>
<name>mapred.mapper.new-api</name>
<value>true</value>
</property>
<property>
<name>mapred.reducer.new-api</name>
<value>true</value>
</property>
<property>
<name>mapreduce.job.queuename</name>
<value>${queueName}</value>
</property>
<property>
<name>mapreduce.job.map.class</name>
<value>org.apache.oozie.example.SampleMapper</value>
</property>
<property>
<name>mapreduce.job.reduce.class</name>
<value>org.apache.oozie.example.SampleReducer</value>
</property>
<!--输入输出路径-->
<property>
<name>mapred.input.dir</name>
<value>/user/${wf:user()}/${examplesRoot}/input-data/text</value>
</property>
<property>
<name>mapred.output.dir</name>
<value>/user/${wf:user()}/${examplesRoot}/output-data/${outputDir}</value>
</property>
<!--map和job output新设置。key-value 属性，根据实际需求进行改变-->
<!--根据需求另需要设置shuffle-->
<property>
<name>mapreduce.job.output.key.class</name>
<value>org.apache.hadoop.io.Text</value>
</property>
<property>
<name>mapreduce.job.output.value.class</name>
<value>org.apache.hadoop.io.IntWritable</value>
</property>
<property>
<name>mapreduce.map.output.key.class</name>
<value>org.apache.hadoop.io.Text</value>
</property>
<property>
<name>mapreduce.map.output.value.class</name>
<value>org.apache.hadoop.io.IntWritable</value>
</property>
</configuration>
</map-reduce>
<ok to="end"/>
<error to="fail"/>
</action>
<kill name="fail">
<message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<end name="end"/>
</workflow-app>

Hive Action

语法：

      <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.1">
    ...
<actionname="[NODE-NAME]">
<hivexmlns="uri:oozie:hive-action:0.2">
<job-tracker>[JOB-TRACKER]</job-tracker>
<name-node>[NAME-NODE]</name-node>
<prepare>
<deletepath="[PATH]"/>
               ...
<mkdirpath="[PATH]"/>
               ...
</prepare>
            <!--hive-site.xml文件的配置地址-->
<job-xml>[HIVE SETTINGS FILE]</job-xml>
<configuration>
                <!--hadoop的配置属性-->
<property>
<name>[PROPERTY-NAME]</name>
<value>[PROPERTY-VALUE]</value>
</property>
                ...
</configuration>
            <!--脚本的HDFS地址-->
<script>[HIVE-SCRIPT]</script>
            <!--脚本使用的参数-->
<param>[PARAM-VALUE]</param>
                ...
<param>[PARAM-VALUE]</param>
<file>[FILE-PATH]</file>
            ...
<archive>[FILE-PATH]</archive>
            ...
</hive>
<okto="[NODE-NAME]"/>
<errorto="[NODE-NAME]"/>
</action>
    ...
</workflow-app>

Hive的启动作业前，可以配置蜂巢动作来创建或删除HDFS目录。

Hive的配置可以使用configuration标签中的job-xml子元素和内联标签，来指定文件。Oozie内联配置，可以使用EL表达式，configuration标签中指定的属性值会覆盖job-xml文件中指定的值。

Oozie Hive操作支持具有参数变量的Hive脚本，其语法为pargram标签中的$ {VARIABLES} 。

Hive的使用过程中需要将所连接数据库的jar包拷贝到Oozie的wf-app根目录下的创建的lib包中。

注意：
- Hadoop mapred.job.tracker and fs.default.name 不能出现在内联标签中。
- Hive使用的hadoop的API 默认为老的API在默认使用的时候，需要注意使用，务必需要确认xml文件中是否需要更改，mapred.mapper.new-api默认为FALSE。
- 可通过运行Hive通过ResourceManager8088中Historyserver进行查看

示例：在Hive中运行script进行插入和运行操作,EL表达式的参数在job.properties中进行配置。

     <workflow-appname="sample-wf"xmlns="uri:oozie:workflow:0.5">
    ...
<actionname="myfirsthivejob">
<hivexmlns="uri:oozie:hive-action:0.5">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<deletepath="${nameNode}/${wf:user()}/${examplesRoot}/${outputDir}"/>
</prepare>
            <job-XMl>${{nameNode}${nameNode}/${wf:user()}/${examplesRoot}/job-xml.xml/${}
<configuration>
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>
</configuration>
<script>myscript.q</script>
<param>${nameNode}/${wf:user()}/${examplesRoot}/${inputDir}</param>
<param>${nameNode}/${wf:user()}/${examplesRoot}/${outputDir}</param>
</hive>
<okto="myotherjob"/>
<errorto="errorcleanup"/>
</action>
    ...
</workflow-app>

Hive（从Hive 0.8开始）会忽略hive-default.xml 文件。因此，Oozie（作为Oozie 3.4）忽略了 Oozie for Hive的操作，如果是以前版本需要Oozie.hive.defaults属性。

Hive action的日志记录级别：通过在configuration中的oozie.hive.log.level进行配置。

Sqoop Action

语法：

     <workflow-appname="[WF-DEF-NAME]"xmlns="uri:oozie:workflow:0.1">
    ...
<actionname="[NODE-NAME]">
<sqoopxmlns="uri:oozie:sqoop-action:0.2">
<job-tracker>[JOB-TRACKER]</job-tracker>
<name-node>[NAME-NODE]</name-node>
<prepare>
<deletepath="[PATH]"/>
               ...
<mkdirpath="[PATH]"/>
               ...
</prepare>
<configuration>
<property>
<name>[PROPERTY-NAME]</name>
<value>[PROPERTY-VALUE]</value>
</property>
                ...
</configuration>
<command>[SQOOP-COMMAND]</command>
<arg>[SQOOP-ARGUMENT]</arg>
            ...
<file>[FILE-PATH]</file>
            ...
<archive>[FILE-PATH]</archive>
            ...
</sqoop>
<okto="[NODE-NAME]"/>
<errorto="[NODE-NAME]"/>
</action>
    ...
</workflow-app>

sqoop通过arg标签进行配置

     <arg>import</arg>
<arg>--connect</arg>
<arg>jdbc:hsqldb:file:db.hsqldb</arg>
<arg>--table</arg>
<arg>TT</arg>
<arg>--target-dir</arg>
<arg>hdfs://localhost:8020/user/tucu/foo</arg>
<arg>-m</arg>
<arg>1</arg>

sqoop的使用和Hive类似.在schema0.3中，在file指定的文件包括job-xml，可以允许指定多个job-xml文件。

Sqoop command

sqoop的命令可以沟通过command的标签或者多个arg标签进行指定该操作。
也可以通过 bin/sqoo --option-file xxx.txt 来执行

** sqoop的引号使用双引号，不使用单引号且仅识别单字符。

Shell Action

Oozie Coordinate（调度）

时间的和数据的可用性

** 时间的调度

基于unix中crontab进行调度，包括startTime(ST)、Frequency(F)、End time(ET)

确保时区的一致性。

**在使用OOzie进行时间调度处理前，需要确认时间的一致性

OOzie默认使用UTC，需更在Oozie-site.xml中改为北京时区GMT+0800，UTC通用协调时与GMT格林尼治平均时一样。

对oozie.processing.timezone属性修改为GMT+0800，使用设置后，时间的格式将变为时间后必须加+0800
Oozie的web控制台也需要设置的Timezone的时区保持一致，否则在控制台的时间将会出现不一致，目录地址：${OOZIE_HOME}oozie-server/webapps/oozie/oozie-cosole.jsfunciton getTimeZone中进行修改。

Coordinate

date -R查看命令查看时区

CST或者+800表示我过的东八区

     Sun, 02 Apr 2017 19:23:39 +0800

频率和时间段的表达式（Frequency and Time-Period Representation）

coordinate支持两种时间表达式，分别是EL表达式和Crontab表达式

EL表达式：

EL Constant	Value	Example
${coord:minutes(int n)}	n	${coord:minutes(45)} --> 45
${coord:hours(int n)}	n 60*	${coord:hours(3)} --> 180
${coord:days(int n)}	variable	${coord:days(2)} --> minutes in 2 full days from the current date
${coord:months(int n)}	variable	${coord:months(1)} --> minutes in a 1 full month from the current date
${cron syntax}	variable	${0,10 15 * * 2-6} --> a job that runs every weekday at 3:00pm and 3:10pm UTC time

分时天月星期

Cron Expression	Meaning
10 9 * * *	Runs everyday at 9:10am
10,30,45 9 * * *	Runs everyday at 9:10am, 9:30am, and 9:45am
`0 * 30 JAN 2-6`	Runs at 0 minute of every hour on weekdays and 30th of January
`0/20 9-17 * * 2-5`	Runs every Mon, Tue, Wed, and Thurs at minutes 0, 20, 40 from 9am to 5pm
1 2 L-3 * *	Runs every third-to-last day of month at 2:01am
`1 2 6W 3 ?`	Runs on the nearest weekday to March, 6th every year at 2:01am
`1 2 * 3 3#2`	Runs every second Tuesday of March at 2:01am every year
`0 10,13 * * MON-FRI`	Runs every weekday at 10am and 1pm