一.关于Airflow
airflow 是一个使用python语言编写的data pipeline调度和监控工作流的平台。Airflow可以用来创建、监控和调整数据管道。任何工作流都可以在这个使用Python来编写的平台上运行。
Airflow是一种允许工作流开发人员轻松创建、维护和周期性地调度运行工作流(即有向无环图或成为DAGs)的工具。因此一些任务的执行及任务调度均可通过Airflow平台实现。最简单的理解就是一个高级版的crontab。它解决了crontab无法解决的任务依赖问题
这里解释几个概念:
DAGs:Airflow的核心概念,是DAG(有向无环图),DAG由一个或多个TASK组成,而这个DAG正是解决了任务间的依赖问题。Task A 执行完成后才能执行 Task B,多个Task之间的依赖关系可以很好的用DAG来表示。
operator:DAG定义了一个工作流,operators定义了工作流中的每一task具体做什么事情。一个operator定义工作流中一个task,每个operator是独立执行的,不需要和其他的operator共享信息。它们可以分别在不同的机器上执行。
如果你真的需要在两个operator之间共享信息,可以使用airflow提供的Xcom功能。
airflow目前有以下几种operator:
BashOperator:执行bash命令
PythonOperator:执行python命令
EmailOperator:执行发Email命令
HTTPOperator:执行Http命令
SqlOperator:执行Sql命令
SSHOperator:执行SSH命令
task 任务
它就是 DAG 文件中的一个个 Operator ,它描述了具体的一个操作。
Operator 执行器
airflow 定义了很多的 Operat

本文深入探讨了Airflow这一Python编写的任务调度平台,解析其核心概念如DAG、Operator和TriggerRules,以及如何在生产环境中部署和使用。介绍了常见Operator类型及其应用场景,如BashOperator、PythonOperator等。
最低0.47元/天 解锁文章
8647

被折叠的 条评论
为什么被折叠?



