利用AWS技术构建机器学习工作流与软件开发生命周期实践
1. 构建基于Apache Airflow的ML工作流
当我们将新合成的鲍鱼数据存储为 samples 变量后,可使用以下代码将其复制到S3数据存储桶:
samples.to_csv(f"s3://{data_bucket}/{new_data_key}",
header=False, index=False)
新的鲍鱼调查数据合成并上传到S3后,我们就可以执行以数据为中心的工作流。此工作流的执行过程如下:
- 工作流概述 :当有新数据且调度启动时,Airflow DAG会执行CI阶段,包括更新鲍鱼数据集、训练新的ML模型以及评估训练模型的性能。一旦模型自动被批准为生产级模型,它将在CD阶段部署到生产环境。运维团队随后可接管托管模型,管理并持续监控其生产性能。此CI/CD过程基于DAG调度,每晚午夜执行,以确保生产模型在新调查数据上持续优化。
- 执行工作流发布步骤 :
1. 使用Airflow Web UI,点击 abalone-data-workflow DAG旁边的切换按钮以启用它。
2. DAG启用后,工作流将自动启动。点击DAG查看其执行情况。
3. 使用树视图或图形视图链接,查看DAG中每个任务的执行情况。
4. 点击任何任务,可查看其任务配置和工作节点的日志输出。点击任务打开任务实例窗口,然后点击“日志”按钮打开工作节点日志。
超级会员免费看
订阅专栏 解锁全文
1765

被折叠的 条评论
为什么被折叠?



