使用Airflow在k8s集群上轻松搭建企业级工作流

原创

已于 2025-06-27 10:25:04 修改 · 1.3k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#kubernetes #容器 #云原生

于 2025-05-16 11:22:13 首次发布

概述

Apache Airflow 是一个开源的工作流管理平台，用于编写、调度和监控工作流（Workflows）。它最初由 Airbnb 开发，并于 2016 年捐赠给 Apache 软件基金会。Airflow 的核心理念是通过代码来定义工作流，使得工作流的管理和维护更加灵活和可扩展, github社区地址见链接。

整体架构

在这里插入图片描述

Apache Airflow的架构主要包括以下核心组件：

Scheduler（调度器）：负责根据定义的DAG（Directed Acyclic Graph，有向无环图）图，计划和触发任务的执行。调度器将任务按照依赖关系组织成可执行的工作流程，并将其分发给可用的执行器。
Executor（执行器）：执行器负责执行调度器分发的任务。Airflow支持多种执行器，包括本地执行器（SequentialExecutor）、Celery执行器和Dask执行器等。执行器将任务实际执行在相应的工作节点上，并将执行结果返回。
Web Server（Web服务器）：提供Web用户界面，用于监控和管理工作流的状态、任务的执行情况、查看日志以及触发任务的手动运行等。通过Web界面，用户可以直观地了解工作流的整体情况。
Database（元数据库）：元数据库存储了Airflow的元数据，包括DAG的定义、任务实例的状态、任务执行日志等。这允许用户在不同的任务和工作流之间共享信息，并支持任务的重试、回溯和监控。
Worker（工作节点）：执行器通过工作节点在集群或计算资源上执行任务。工作节点可以是单个服务器或集群，具体取决于所选的执行器类型。

容器部署airflow方式

手动部署

手动部署可以参考Airflow官方教程，这里面介绍了怎么通过helm chart进行airflow部署，这里就不再详述了。不过由于docker.io被墙了，部署的时候需要想办法把海外的镜像拉取下来，或者直接部署到海外地域的集群中。

计算巢一键部署

计算巢提供了免费的airflow社区版服务，支持一键部署，既可以部署到已有容器集群，也支持新建容器集群，同时镜像也都使用的阿里云托管的镜像，不会存在镜像拉取不下来的问题，具体部署方式可以查看服务中的部署文档。

使用方式

Dags文件加载到scheduler调度器中

上面在k8s集群上部署好airflow以后，那么怎么运行我们定义好的DAG工作流呢，这里面主要有三种方式：

配置git仓库同步，从git仓库中加载要运行的Dags文件，这是最推荐的方式，可以很容易的更新要运行的Dags文件，计算巢部署版本默认使用这种方式，需要在Values.yaml中配置对应的git-sync配置。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。