背景
在今天中午,本人快乐的干饭的时候,领导打电话过来询问oozie是个什么样的东西,能不能有个用例?在本人的理解里面,oozie主要是个调度工具。所以本篇为CDH集群的oozie的快速入门教程
环境准备
CDH集群一套CDH集群中集成了oozie和hue

因为oozie整合进hue中界面化了,不像那种命令行提交的方式,要写很多繁杂的xml文件,所以本文就开始揭露,如何快速入门oozie
新建一个调度任务
本文使用一个pyspark作为调度用例:
pyspark的代码如下,文件名为:pyspark_test.py,已经上传至hdfs的/oozie/路径下了。
from pyspark.sql import SparkSession
spark = SparkSession.Builder().getOrCreate()
spark.sql("select 1 as temp").show()
spark.stop()
打开hue的界面:

本文介绍了如何在CDH集群上利用Oozie和Hue进行Pyspark任务的创建与调度。首先,通过Hue界面拖拽方式设置Spark action,并指定python脚本。接着,配置任务参数并保存,然后启动任务,观察Yarn上任务的执行情况。此外,还展示了如何设置周期调度、查看任务日志、删除任务以及查看Oozie工作流的XML配置。最后,文章提到了Oozie的一些入口位置和操作方法。
最低0.47元/天 解锁文章
7057

被折叠的 条评论
为什么被折叠?



