17、构建以数据为中心的工作流:Airflow DAG 与合成数据生成

构建以数据为中心的工作流:Airflow DAG 与合成数据生成

1. 构建 Airflow DAG

数据工程师需要以有向无环图(DAG)的形式为 Airflow 创建整体工作流。Airflow DAG 是一组由 Airflow 工作者执行的连续任务或操作。为简化创建这些连续操作的过程,Airflow 提供了多个预打包的操作符,而 AWS 也为其服务提供了预构建的操作符。不过,使用 AWS 提供的操作符需要数据工程师或机器学习从业者充分理解相关任务操作符以及 AWS 服务执行任务的方式。为简化 DAG 创建过程,我们主要使用标准的 PythonOperator() 类来调用 SageMaker 服务,这样可以将 SageMaker SDK 代码从机器学习实验笔记本复制到工作流 DAG 中,便于将机器学习过程集成到数据工作流中。

以下是构建 Airflow DAG 的具体步骤:
1. 在 Cloud9 工作区中,右键单击 dags 文件夹,选择“New Folder”选项,创建一个名为 model 的文件夹。
2. 为定义 Lambda 函数处理程序,可复用之前创建的代码。运行以下命令,从已克隆的 GitHub 仓库中复制 model_training.py 文件:

$ cp ~/environment/src/Chapter09/Files/airflow/dags/model/model_training.py ~/environment/abalone-data-pipeline/
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值