ZenML项目教程：远程运行Jupyter Notebook中的机器学习工作流-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00137/article/details/148524631

ZenML项目教程：远程运行Jupyter Notebook中的机器学习工作流

zenml ZenML 🙏: Build portable, production-ready MLOps pipelines. https://zenml.io. 项目地址: https://gitcode.com/gh_mirrors/ze/zenml

前言

在机器学习开发过程中，Jupyter Notebook因其交互性和可视化优势成为数据科学家和工程师的首选工具。然而当项目从原型阶段进入生产环境时，我们常常面临如何将Notebook中的代码迁移到远程基础设施执行的挑战。本文将介绍如何利用ZenML框架优雅地解决这一问题。

Notebook代码的局限性

虽然Notebook非常适合快速原型开发，但直接在Notebook中定义和执行生产级机器学习工作流存在几个关键限制：

代码封装问题：Notebook中的单元格代码难以直接打包和部署
依赖管理：跨单元格的变量引用和隐式导入会导致运行时错误
执行环境：本地机器资源有限，无法处理大规模计算任务

ZenML通过特定的代码组织方式解决了这些问题，使Notebook代码能够无缝迁移到远程执行环境。

最佳实践：编写可远程执行的Step

要使Notebook中的代码能够被ZenML正确打包并远程执行，需要遵循以下规范：

单元格代码规范

仅使用标准Python语法，避免Jupyter特有的魔法命令(%%)和shell命令(!)
每个单元格应包含完整的功能实现，避免跨单元格依赖
显式声明所有需要的导入，包括ZenML相关依赖

示例：可远程执行的Step

from zenml import step
import pandas as pd
from sklearn.base import ClassifierMixin
from sklearn.svm import SVC

@step(step_operator="my_remote_operator")
def model_trainer(
    features: pd.DataFrame,
    labels: pd.Series,
    hyperparam: float = 0.001,
) -> tuple[ClassifierMixin, float]:
    """训练模型并返回模型对象和评估指标"""
    # 模型初始化
    model = SVC(gamma=hyperparam)
    
    # 训练过程
    model.fit(features.to_numpy(), labels.to_numpy())
    
    # 评估指标
    accuracy = model.score(features.to_numpy(), labels.to_numpy())
    print(f"训练准确率: {accuracy}")
    
    return model, accuracy

远程执行单个Step

ZenML允许将Notebook中的Step直接部署到远程基础设施执行：

# 准备训练数据
train_features = pd.DataFrame(...) 
train_labels = pd.Series(...)

# 远程执行Step
trained_model, model_accuracy = model_trainer(
    features=train_features,
    labels=train_labels,
    hyperparam=0.01
)

执行过程说明：

ZenML会自动将Step代码打包为独立模块
根据配置的Step Operator选择执行环境
在远程基础设施上执行计算任务
将结果返回给Notebook环境

进阶：从Notebook到生产管道

当实验阶段完成后，建议将稳定代码迁移到正式项目中：

代码重构：将Step实现移动到独立的Python模块中
管道组装：使用@pipeline装饰器定义完整工作流
版本控制：将代码纳入Git等版本管理系统
CI/CD集成：通过自动化流程触发管道执行

from zenml import pipeline

@pipeline
def training_pipeline(
    data_loader,
    preprocessor,
    trainer,
    evaluator
):
    """端到端训练管道"""
    raw_data = data_loader()
    processed_data = preprocessor(raw_data)
    model = trainer(processed_data)
    evaluator(model)