ZenML项目实战：使用Pipeline Templates标准化机器学习工作流-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00270/article/details/148524303

ZenML项目实战：使用Pipeline Templates标准化机器学习工作流

zenml ZenML 🙏: Build portable, production-ready MLOps pipelines. https://zenml.io. 项目地址: https://gitcode.com/gh_mirrors/ze/zenml

前言

在现代机器学习工程实践中，团队协作和流程标准化是两大关键挑战。不同角色的团队成员（数据科学家、MLOps工程师、业务方等）往往需要以不同方式执行相同的机器学习流程，这导致了大量重复工作和配置不一致问题。ZenML的Pipeline Templates功能正是为解决这些问题而设计。

Pipeline Templates核心概念

Pipeline Templates（运行模板）是ZenML提供的一种高级功能，它允许你将完整的pipeline配置参数化并保存为可复用的模板。这些模板可以被不同角色的团队成员通过多种方式执行，包括：

Python SDK（面向开发人员）
CLI命令行（面向运维人员）
可视化仪表盘（面向非技术用户）
REST API（面向自动化系统）

本质上，Pipeline Templates是pipeline运行的"蓝图"，它封装了pipeline的所有配置细节，同时保留了关键参数的可定制性。

为什么需要Pipeline Templates

考虑一个典型的机器学习团队工作场景：

数据科学家需要频繁调整超参数进行实验
MLOps工程师需要定期用新数据重新训练模型
产品经理需要在不接触代码的情况下触发模型训练

传统方式下，每个需求都需要：

直接访问代码库
了解pipeline实现细节
手动配置每次运行

Pipeline Templates通过以下方式解决了这些问题：

标准化：确保所有运行遵循相同配置模式
参数化：无需修改代码即可调整输入和设置
远程执行：无需代码访问即可触发pipeline
团队协作：共享即用型pipeline配置
自动化：与CI/CD系统无缝集成

创建Pipeline Templates的三种方式

1. 基于Python SDK创建

这是最灵活的方式，适合开发人员在代码中直接创建模板：

from zenml.client import Client
from zenml import pipeline

# 方式1：基于现有运行创建模板
run = Client().get_pipeline_run("已有运行名称或ID")
Client().create_run_template(
    name="我的训练模板",
    deployment_id=run.deployment_id
)

# 方式2：直接从pipeline定义创建
@pipeline
def my_pipeline():
    ...

template = my_pipeline.create_run_template(name="直接创建模板")

关键点：

必须基于远程堆栈（remote stack）上的运行创建
创建时需要确保有活跃的远程堆栈

2. 使用CLI命令行创建

适合运维人员快速创建模板：

zenml pipeline create-run-template run.my_pipeline --name=CLI创建模板

注意事项：

需要指定pipeline的源路径（格式为"文件名.函数名"）
需要活跃的远程堆栈或通过--stack参数指定

3. 通过仪表盘可视化创建

适合非技术用户通过UI操作：

导航到远程堆栈上的pipeline运行详情页
点击"+ New Template"按钮
输入模板名称
点击"Create"完成创建

运行Pipeline Templates的四种方式

1. Python SDK方式

适合在自动化脚本中触发：

from zenml.client import Client

template = Client().get_run_template("我的训练模板")
config = template.config_template

# 修改配置参数
config.steps["data_loader"].parameters["data_path"] = "s3://new-data/"

# 触发运行
Client().trigger_pipeline(
    template_id=template.id,
    run_configuration=config,
)

2. 仪表盘可视化运行

适合非技术用户操作：

在Pipelines页面点击"Run a Pipeline"
或在模板详情页点击"Run Template"
上传YAML配置文件或直接编辑参数
点击"Run"执行

3. REST API方式

适合集成到CI/CD系统：

# 获取pipeline ID
curl -X GET '服务器地址/api/v1/pipelines?name=训练pipeline' -H 'Authorization: Bearer 令牌'

# 获取模板ID
curl -X GET '服务器地址/api/v1/run_templates?pipeline_id=上一步获取的ID' -H 'Authorization: Bearer 令牌'

# 触发运行
curl -X POST '服务器地址/api/v1/run_templates/模板ID/runs' -H 'Authorization: Bearer 令牌' -d '{"steps": {...}}'

4. 跨pipeline触发

高级用法：在一个pipeline中触发另一个模板

from zenml import pipeline, step
from zenml.client import Client

@step
def trigger_step():
    run_config = {...}  # 配置参数
    Client().trigger_pipeline("训练模板", run_configuration=run_config)

@pipeline
def main_pipeline():
    trigger_step()  # 这将触发另一个pipeline

这种模式特别适合：