Azkaban【基础 01】核心概念+特点+Web界面+架构+Job类型（一篇即可入门Azkaban工作流调度系统

2401_87298872

于 2024-09-21 17:04:16 发布

阅读量567

点赞数 3

文章标签：前端架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_87298872/article/details/142419932

版权

Azkaban工作流调度系统

1. 工作流调度系统解决了什么问题
2. 特点
3. 与Ooize简单对比
4. 架构
5. Job类型
6. 总结

1. 工作流调度系统解决了什么问题

我曾经参与过一个数据治理的项目，项目的大概流程是【数据获取-数据清洗入库-展示】：

在这里插入图片描述
这时候就出现问题了，数据导入成功后要执行清洗流程，那什么时候数据导入完成呢？又是什么时候开始执行数据清洗流程呢？盯着当然是可以的，但是复杂的流程我们实现了自动化，执行的时候却要人工，比较浪费时间。直接使用crontab可以实现定时，但是无法实现顺序执行。

我们当时自己搭建了一个调度平台，实现的功能是定时调度指定的shell脚本，shell脚本去调用ktr或者kjb脚本并输出日志数据，这个平台解决了数据导入阶段，也解决了数据清洗阶段，但是没能实现自动化，因为不知道数据导入何时结束、导入是否成功，也就没法定时调用清洗脚本，最终，这个平台也被放弃了，我们合并了shell脚本，自己在Linux系统上进行执行及数据校验。😩

后来开始学习大数据，大数据相关的组件更多，流程也更多，调度文件就凸显了，例如，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：

通过Hadoop先将原始数据上传到HDFS上（HDFS的操作） >> 使用MapReduce对原始数据进行清洗（MapReduce的操作） >> 将清洗后的数据导入到hive表中（hive的导入操作） >> 对Hive中多个表的数据进行JOIN处理，得到一张hive的明细表（创建中间表） >>

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。