文章目录
前言
一、azkaban 简介
Azkaban框架简介
Azkaban是由LinkedIn开发并开源的一款分布式工作流调度系统,主要用于管理和运行Hadoop作业。它通过可视化界面定义、调度和监控复杂的作业依赖关系,适合大规模数据处理任务的自动化管理。
核心功能
工作流管理
支持通过有向无环图(DAG)定义任务依赖关系,任务可以是Shell脚本、Java程序或Hadoop MapReduce作业。
调度能力
提供基于时间的调度(如定时触发)和手动触发两种模式,支持任务重试、失败告警和优先级设置。
用户界面与监控
内置Web UI,可实时查看任务状态、日志和执行历史,支持任务kill和重启操作。
权限与安全
支持多用户角色管理和项目级权限控制,集成LDAP/Active Directory认证。
典型应用场景
- 数据仓库ETL流程自动化
- 机器学习模型训练流水线
- 周期性报表生成任务
- 跨系统作业依赖编排
Azkaban的轻量级设计、易用性和稳定性使其在大数据领域广泛应用,适合需要可视化调度的中小规模作业场景。
二、安装

azkaban通过编译之后能够得到如上图片目录文件。
1. 单服务模式
单服务模式主要使用到了 azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz包。
优点 :解压可用,十分方便,可以小规模使用
缺点 :底层采用H2作为数据库,因此可能数据库文件会损坏后无法恢复,会造成崩溃,不建议任务多的生产环境使用。
- 上传压缩包,并解压
cd /export/softwares
tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ../servers/
cd /export/servers/azkaban-solo-server-0.1.0-SNAPSHOT/conf
vim azkaban.properties
- 修改配置,并启动(端口其他可

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



