Azure机器学习环境使用指南：从入门到精通

最新推荐文章于 2025-06-13 15:04:14 发布

支然苹

最新推荐文章于 2025-06-13 15:04:14 发布

阅读量375

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00384/article/details/148548764

Azure机器学习环境使用指南：从入门到精通

MachineLearningNotebooks Python notebooks with ML and deep learning examples with Azure Machine Learning Python SDK | Microsoft 项目地址: https://gitcode.com/gh_mirrors/ma/MachineLearningNotebooks

概述

在机器学习项目中，环境管理是一个关键但常被忽视的环节。Azure机器学习环境(Environment)提供了一种系统化的方式来封装和管理机器学习训练和推理过程中所需的所有依赖项。本文将深入探讨Azure ML环境的核心概念、使用方法以及最佳实践。

环境的核心概念

Azure ML环境本质上是一个封装了机器学习工作所需所有组件的容器，包括：

Python包及其版本
环境变量
Docker设置
其他运行时属性

环境的主要优势在于：

依赖管理：精确控制Python包及其版本
可重现性：确保本地开发环境和远程训练环境一致
生产一致性：使实验环境与生产环境保持一致
审计追踪：记录模型训练时的完整环境配置

环境类型

预定义环境

Azure ML提供了一系列开箱即用的预定义环境：

AzureML-Minimal：包含运行跟踪和资源上传所需的最小包集合
AzureML-Tutorial：包含常见数据科学包(如Scikit-Learn、Pandas、Matplotlib)和更完整的azureml-sdk包

这些预定义环境基于缓存的Docker镜像，能显著减少运行准备时间。

from azureml.core import Environment
curated_env = Environment.get(workspace=ws, name="AzureML-Minimal")

自定义环境

创建自定义环境的基本流程：

实例化Environment对象
配置Python包依赖
设置其他属性(如环境变量、Docker设置等)

from azureml.core.environment import CondaDependencies

myenv = Environment(name="myenv")
conda_dep = CondaDependencies()
conda_dep.add_conda_package("scikit-learn==0.22.1")
conda_dep.add_pip_package("pillow==6.2.1")
myenv.python.conda_dependencies = conda_dep

环境使用实践

提交运行

将环境与训练脚本结合使用：

from azureml.core import ScriptRunConfig, Experiment

myexp = Experiment(workspace=ws, name="environment-example")
src = ScriptRunConfig(source_directory=".",
                     script="example.py",
                     compute_target="local",
                     environment=myenv)
run = myexp.submit(config=src)
run.wait_for_completion(show_output=True)

首次运行需要构建环境，后续运行会重用已有环境，显著提高效率。

环境注册与管理

注册环境可实现版本控制和复用：

myenv.register(workspace=ws)

查询已注册的环境：

for name, env in ws.environments.items():
    print(f"Name {name} \t version {env.version}")

从现有配置创建环境

从现有Conda环境创建：

myenv = Environment.from_existing_conda_environment(
    name="myenv",
    conda_environment_name="mycondaenv")

从Conda或Pip文件创建：

myenv = Environment.from_conda_specification(
    name="myenv",
    file_path="path-to-conda-specification-file")

myenv = Environment.from_pip_requirements(
    name="myenv",
    file_path="path-to-pip-requirements-file")

高级配置

Docker集成

启用Docker可提供更好的隔离性和一致性：

myenv.docker.enabled = True

可配置的Docker选项包括：

基础镜像
镜像注册表
共享卷
共享内存大小

myenv.docker.base_image = "your-custom-image"
myenv.docker.shared_volumes = True
myenv.docker.shm_size = "2g"

推理环境配置

训练环境可复用于模型部署：

from azureml.core.model import InferenceConfig

myenv.inferencing_stack_version = "latest"
inference_config = InferenceConfig(
    entry_script="score.py",
    environment=myenv)