【Oozie】CDH集群的oozie手把手快速入门

本文介绍了如何在CDH集群上利用Oozie和Hue进行Pyspark任务的创建与调度。首先,通过Hue界面拖拽方式设置Spark action,并指定python脚本。接着,配置任务参数并保存,然后启动任务,观察Yarn上任务的执行情况。此外,还展示了如何设置周期调度、查看任务日志、删除任务以及查看Oozie工作流的XML配置。最后,文章提到了Oozie的一些入口位置和操作方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

在今天中午,本人快乐的干饭的时候,领导打电话过来询问oozie是个什么样的东西,能不能有个用例?在本人的理解里面,oozie主要是个调度工具。所以本篇为CDH集群的oozie的快速入门教程

环境准备

  • CDH集群一套
  • CDH集群中集成了ooziehue
    oozie和hue的组件
    因为oozie整合进hue中界面化了,不像那种命令行提交的方式,要写很多繁杂的xml文件,所以本文就开始揭露,如何快速入门oozie

新建一个调度任务

本文使用一个pyspark作为调度用例:
pyspark的代码如下,文件名为:pyspark_test.py,已经上传至hdfs/oozie/路径下了。

from pyspark.sql import SparkSession
spark = SparkSession.Builder().getOrCreate()
spark.sql("select 1 as temp").show()
spark.stop()

打开hue的界面:
在这里插入图片描述
在这里插入图片描述
出现下图所示的界面:
在这里插入图片描述
红框选中的地方是oozie支持的任务类型,然后我们选择一个sparkaction就是从左往右数第四个五角星的那个。用鼠标安按住拖入那个标记了Drop your action here的区域。
在这里插入图片描述
出现下图,这里面第一个Files是提供运行时所需要的文件,Jar/py name表示指定spark的任务jar包或者pyspark所需要的python脚本:
在这里插入图片描述
在上面我提到了,有一个pyspark_test.py文件存放在hdfs/oozie/路径下了,所以在Files这一栏中,路径名称是/oozie/pyspark_test.py Jar/py name里面填的是这个python脚本的名字pyspark_test.py
在这里插入图片描述
接着会出现如下界面,相关的注释也都在这里了,看不清的小伙伴可以右键点击图片,然后选择在新的标签页打开
在这里插入图片描述
填写完毕之后点击保存按钮,如下所示:
在这里插入图片描述
保存完毕之后,在保存的按钮的左侧会出现一个三角符号,代表可以启动任务了。
在这里插入图片描述
启动的时候会出现下图所示的样子,这句话代表,在提交作业前是否需要试运行一下,至于这个试运行会有什么效果我不知道。所以这边忽略了这个选项,直接点击Submit
在这里插入图片描述
任务如下,运行成功:
在这里插入图片描述
在这里插入图片描述
因为我这个集群是spark on yarn,所以我们可以进入到spark的管理界面上看到这个任务:
在这里插入图片描述
可以看到我们的任务MySpark确实已经提交成功了。同时出现了一个oozie的一个任务。据观察:当这个任务在oozie上启动的时候:
yarn上会出现一个oozie的调度任务,然后这个任务启动的过程中会将启动spark的任务。
至此,一个简单的oozie的调度任务就做完了。下面我会聊聊一些功能的入口在哪里:

Oozie的一些入口位置

设置周期调度

在这里插入图片描述
调度编辑器:
在这里插入图片描述
在这里插入图片描述
保存完毕之后,右上角有一个三角图标,记得点击一下,将任务流进入调度队列里面
在这里插入图片描述
这里我设置了任务每一分钟运行一次,但是这个选项的最小粒度是天,通过点击Options通过cron语法将将调度时间设置为每分钟执行一次,调度队列如下所示,出现以下 的图片才能算是真正的调度成功:
在这里插入图片描述

进入oozie的控制台

在这里插入图片描述
在这里插入图片描述

删除任务

在这里插入图片描述
左侧方框里面的东西,直接用鼠标右键点击,选择删除就好了。

查看任务的日志

在控制台的jobs当中选择一个任务,如下所示:
在这里插入图片描述
在这里插入图片描述
或者从workflow进去
在这里插入图片描述
在这里插入图片描述
也能查看到日志:
在这里插入图片描述

查看oozie的Xml配置文件

在这里插入图片描述
如下图所示:
在这里插入图片描述
这样就可以查看任务的底层配置的写法,更加清楚的了解任务的详细配置信息了。

关闭已经执行了的调度

如果有正在执行的调度的话,就会在这个Running下面,就会有一个栏目,我现在已经将这个任务取消掉了取消的方法就是先选中这个任务,然后再点击界面的右上角有一个kill的选项,点击一下就好了
下图是我取消了调度任务样子:
在这里插入图片描述

总结:

这里主要是记录了一下Oozie的快速入门,比较基础比较简单,各位大佬有什么更好的经验的话,请在评论区内分享一下,谢谢各位大佬了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值