17、构建以数据为中心的工作流：Airflow DAG 与合成数据生成-优快云博客

本文链接：https://blog.youkuaiyun.com/linux/article/details/152850949

构建以数据为中心的工作流：Airflow DAG 与合成数据生成

1. 构建 Airflow DAG

数据工程师需要以有向无环图（DAG）的形式为 Airflow 创建整体工作流。Airflow DAG 是一组由 Airflow 工作者执行的连续任务或操作。为简化创建这些连续操作的过程，Airflow 提供了多个预打包的操作符，而 AWS 也为其服务提供了预构建的操作符。不过，使用 AWS 提供的操作符需要数据工程师或机器学习从业者充分理解相关任务操作符以及 AWS 服务执行任务的方式。为简化 DAG 创建过程，我们主要使用标准的 PythonOperator() 类来调用 SageMaker 服务，这样可以将 SageMaker SDK 代码从机器学习实验笔记本复制到工作流 DAG 中，便于将机器学习过程集成到数据工作流中。

以下是构建 Airflow DAG 的具体步骤：
1. 在 Cloud9 工作区中，右键单击 dags 文件夹，选择“New Folder”选项，创建一个名为 model 的文件夹。
2. 为定义 Lambda 函数处理程序，可复用之前创建的代码。运行以下命令，从已克隆的 GitHub 仓库中复制 model_training.py 文件：

$ cp ~/environment/src/Chapter09/Files/airflow/dags/model/model_training.py ~/environment/abalone-data-pipeline/