背景:
- ETL会经常使用脚本(bash/python)+crontab来运行数据处理任务
- 查看任务执行情况不直观方便,只能登录机器、或者写一个界面/监控
- 存在依赖关系的任务没办法保证,或者保证的方法成本太高
- 任务量达到一定量级,任务的管理将极其棘手
调研:
Airflow |
Oozie |
+ Python Code for DAGs |
--- Java or XML for DAGs |
+ Has connectors for every major service/cloud providers |
- hard to build complex pipelines |
+ More versatile |
- smaller, less active community |
+ Advanced metrics |