ZenML项目教程：从外部系统触发机器学习管道-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01056/article/details/148524642

ZenML项目教程：从外部系统触发机器学习管道

zenml ZenML 🙏: Build portable, production-ready MLOps pipelines. https://zenml.io. 项目地址: https://gitcode.com/gh_mirrors/ze/zenml

概述

在现代机器学习工程实践中，自动化管道触发机制是实现高效MLOps工作流的关键环节。本文将详细介绍如何在ZenML项目中实现从外部系统触发机器学习管道的多种方法。

为什么需要外部触发机制

在开发环境中，我们可以直接运行Python代码来执行ML管道。但在生产环境中，通常需要响应外部事件来触发管道执行：

基于时间间隔的模型定期重训练
新数据到达时的批量推理
数据漂移或性能下降时的自动响应
与CI/CD系统集成
通过API调用从自定义应用触发

准备工作

在开始前，请确保：

已安装并配置ZenML环境
了解ZenML管道和步骤的基本概念
准备一个简单的管道用于演示

创建示例管道

我们首先创建一个基础训练管道，它接收数据集URL和模型类型作为输入：

from zenml import pipeline, step
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

@step
def load_data(data_url: str) -> pd.DataFrame:
    """加载数据步骤"""
    # 实际实现中会从data_url读取数据
    return pd.DataFrame()

@step
def train_model(data: pd.DataFrame, model_type: str):
    """训练模型步骤"""
    if model_type == "random_forest":
        return RandomForestClassifier().fit(data.drop('target', axis=1), data['target'])

@pipeline
def training_pipeline(data_url: str, model_type: str):
    """可配置的训练管道"""
    data = load_data(data_url)
    train_model(data, model_type)

这个管道设计为可配置的，便于在不同场景下使用不同参数执行。

方法一：使用运行模板（ZenML Pro功能）

运行模板是ZenML Pro提供的功能，可以预定义管道配置并通过多种接口执行。

创建运行模板

可以通过Python代码或CLI创建模板：

from zenml.client import Client

pipeline = Client().get_pipeline("training_pipeline")
template = pipeline.runs[0].create_run_template(
    name="prod_template",
    config={"steps": {"load_data": {"parameters": {"data_url": "prod-data.csv"}}}}
)

触发模板执行

创建模板后，可以通过多种方式触发：

使用Python客户端

run = Client().trigger_pipeline(
    template_id=template.id,
    run_configuration={"steps": {"train_model": {"parameters": {"model_type": "gbm"}}}}
)

使用REST API

curl -X POST https://zenml-server/api/v1/run_templates/{id}/runs \
  -H "Authorization: Bearer {token}" \
  -d '{"steps": {...}}'

安全考虑

为API访问创建专用服务账户：

service_account = Client().create_service_account("api-trigger")
token = service_account.create_token("prod-token")

方法二：构建自定义触发API（开源方案）

对于开源用户，可以构建自己的API包装器来触发管道。

创建FastAPI服务

from fastapi import FastAPI
from zenml.client import Client

app = FastAPI()

@app.post("/trigger")
def trigger_pipeline(data_url: str, model_type: str):
    """触发管道执行的API端点"""
    pipeline = Client().get_pipeline("training_pipeline")
    pipeline.run(data_url=data_url, model_type=model_type)
    return {"status": "triggered"}

容器化部署

创建Dockerfile：

FROM python:3.8
COPY . /app
WORKDIR /app
RUN pip install -r requirements.txt
CMD ["uvicorn", "main:app", "--host", "0.0.0.0"]

方法三：使用Serverless函数

以AWS Lambda为例：

import boto3
from zenml.client import Client

def lambda_handler(event, context):
    data_url = event.get("data_url")
    model_type = event.get("model_type")
    
    pipeline = Client().get_pipeline("training_pipeline")
    pipeline.run(data_url=data_url, model_type=model_type)
    
    return {"statusCode": 200}