Azkaban (2.5.0)使用指南
1. 背景
- 在企业开发中,经常会使用脚本进行定时任务执行的工作。这种工作属于重复性劳动,所以简单的脚本定时执行,使用linux的crontab即可
- 不过当遇到脚本任务之间有先后依赖,甚至有出错重试策略时,crontab就不够用了,这时候脚本任务调度管理框架就闪亮登场,azkaban,oozie等都是如此
- 本文主要讲解azkaban的实际使用案例
2. 使用
- azkaban使用时,需要配置一个job文件,文件中设置job类型以及job执行的脚本或者任务。
- 如果执行的是脚本,还需要将脚本和job文件一起打成一个zip包,上传到azkaban中。
- azkaban的job文件中,type支持多种类型
command:Linux shell命令行任务
gobblin:通用数据采集工具
hadoopJava:运行hadoopMR任务
java:原生java任务
hive:支持执行hiveSQL
pig:pig脚本任务
spark:spark任务
hdfsToTeradata:把数据从hdfs导入Teradata
teradataToHdfs:把数据从Teradata导入hdfs
- 不过实际企业开发,一般都只是使用cammand形式,因为脚本中可以编写更加灵活的任务方式,比在azkaban中调用要灵活很多很多,维护管理也更加熟悉一些。
2.1 Command类型单一命令job示例
- 创建job描述文件
#command.job
type=command
command=echo 'hello'
- 将job资源文件打包成zip文件
zip command.job
- 通过azkaban的web管理平台创建project并上传job压缩包
- 首先创建project

本文详细介绍了Azkaban 2.5.0的使用,包括Command类型的任务(单一命令、脚本)、HDFS操作、MAPREDUCE和SPARK任务调度。此外,还讲解了参数设置、失败策略和Flow的并行策略选择。
最低0.47元/天 解锁文章
417





