MLRun扫盲指南-开源MLOps端到端机器学习技术栈

原创

已于 2023-12-06 20:45:10 修改 · 1.6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #机器学习 #人工智能 #python

于 2023-12-06 20:29:22 首次发布

文章探讨了MLOps如何利用DevOps的CI/CD框架进行高效的代码管理和机器学习流程整合，包括数据预处理、模型开发、部署和实时监控。MLRun作为一个平台，支持本地和云端协作，自动化MLOps的各个环节，如模型训练、版本控制和无服务器部署。

前言

官方文档：mlrun官方文档

MLOps仍然需要DevOps提倡的CI/CD框架，这是一种经过验证的方法，可以频繁地进行高质量的代码更新。然而，机器学习通过数据和模型验证扩展了集成阶段，而交付则解决了机器学习部署的复杂性。总之，CI/CD将数据、模型和代码组件组合在一起，以发布和更新预测服务
什么是CI/CD？让你的项目变得更加敏捷！

什么是MLRun

使用MLRun，用户可以在本地机器或云上选择任何IDE。MLRun打破了数据、ML、软件和DevOps/MLOps团队之间的孤岛，实现了协作和快速持续改进。能够自动化管理CI/CD中的各个阶段任务，通常分为以下几个：

Ingest and process data（数据的提取和处理）

提供多种在线或者离线数据源，支持大规模批处理或实时数据处理、数据沿袭(data lineage)和版本控制(versioning)、结构化和非结构化数据等。

数据的要求

批收集和处理方法比如ETL、SQL查询和批处理分析对实时操作工作流无效；因此，机器学习团队经常构建使用流处理、NoSQL和容器化微服务的独立数据管道。如今80%的数据是非结构化的，因此构建可操作数据管道的一个重要部分是将非结构化的文本、音频和视觉数据转换为机器学习或深度学习友好的数据组织。

MLOps解决方案应该包含一个特性存储，它只为批处理和实时场景定义一次数据收集和转换，自动处理特性而无需人工参与。并且存储功能不仅仅局限传统分析，支持对非结构化数据和复杂布局的转换。
在这里插入图片描述

Develop and train models（模型的建立和训练）

MLRun允许您轻松构建ML工作流（pipelines），从各种来源或特征存储中获取数据并对其进行处理，以多个参数大规模训练模型，测试模型，跟踪每个实验，以及注册，版本和部署模型等。MLRun提供可扩展的内置或自定义模型服务，可以与任何框架集成，同时，我们也可以自己预训练模型。

使用MLOps, ML团队构建机器学习管道，自动收集和准备数据，选择最佳特征，使用不同的参数集或算法运行训练，评估模型，并运行各种模型和系统测试。所有的执行以及它们的数据、元数据、代码和结果都必须进行版本控制和记录，提供快速的结果可视化，以便将它们与过去的结果进行比较，并了解哪些数据用于生成每个模型。

在这里插入图片描述
并且ML pipelines可以被手动触发，当（1）代码、依赖包或者参数改变时；（2）输入数据或者特征逻辑改变时；（3）检测到概念漂移，或者模型需要用新数据重新训练时。

Concept drift（概念漂移）：是指在数据分布或者模型输入中的某种变化，导致模型性能下降，这种变化可能是渐变的，可能是突变的。

Deploy models and applications（模型部署和应用）

MLRun使用弹性和弹性的无服务器功能快速部署和管理生产级实时或批处理应用程序管道。MLRun处理整个ML应用程序:拦截应用程序/用户请求，运行数据处理任务，使用一个或多个模型进行推理，驱动操作，并与应用程序逻辑集成。

使用MLRun的优点之一是简化了部署过程。部署不仅仅是模型部署。模型通常作为更大的系统的一部分运行，该系统需要在执行模型之前和之后进行数据处理，并作为业务应用程序的一部分。
一般有两种模型部署方式：

实时部署

（1）实时部署：能够快速响应实时事件，MLRun 提供了专门的服务图（serving graph）来简化创建数据转换管道，从而确保在实时事件中的数据处理与批处理训练一致。
MLRun包含一些内置类，常用。
在这里插入图片描述
通常可以分为两个部分，首先是创建一个model

import os
import urllib.request
import mlrun

model_path = os.path.abspath('sklearn.pkl')

# Download the model file locally 下载模型文件到本地
urllib.request.urlretrieve(mlrun.get_sample_path('models/serving/sklearn.pkl')</