深入理解Microsoft AI-System中的自动机器学习实验-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00348/article/details/148549841

深入理解Microsoft AI-System中的自动机器学习实验

AI-System 一个关于人工智能系统的研究项目，适合对人工智能系统和深度学习技术有兴趣的人士学习和研究，内容包括计算机视觉、自然语言处理、语音识别等多个领域。特点是大胆创新，实践性强，具有一定的研究价值。项目地址: https://gitcode.com/gh_mirrors/ai/AI-System

前言

自动机器学习（AutoML）是近年来人工智能领域的重要发展方向，它通过自动化机器学习流程中的关键步骤，大大降低了机器学习应用的门槛。本文将基于Microsoft AI-System项目中的Lab8实验，详细介绍如何使用自动机器学习工具NNI进行模型优化和超参数调优。

实验概述

本实验旨在通过实践掌握自动机器学习的基本概念和方法，特别是如何使用NNI（Neural Network Intelligence）工具对CIFAR-10图像分类任务进行模型优化。实验从基础的PyTorch模型训练开始，逐步深入到自动超参数调优和网络架构搜索。

实验环境准备

硬件要求

CPU：建议4核以上
GPU：推荐NVIDIA显卡，显存4GB以上

软件环境

操作系统：Ubuntu 18.04或更高版本
Python版本：3.7.6
关键库：
- NNI 1.8
- PyTorch 1.5.0
- CUDA（如使用GPU加速）

实验原理详解

CIFAR-10数据集

CIFAR-10是一个经典的图像分类数据集，包含10个类别的60000张32x32彩色图像，每个类别6000张。数据集分为50000张训练图像和10000张测试图像。

基准模型

实验开始时使用一个表现较差的基准模型（默认是ResNet18），通过自动机器学习技术逐步优化这个模型。

自动机器学习流程

超参数优化（HPO）：自动搜索最优的学习率、批大小、优化器等超参数
网络架构搜索（NAS）：自动设计神经网络架构
模型训练：使用优化后的超参数和架构进行最终训练

实验步骤详解

第一步：熟悉基础环境

安装PyTorch并熟悉其基本操作
加载和预处理CIFAR-10数据集
运行基准模型并记录初始准确率

第二步：手动调参

在基准模型基础上，尝试手动调整以下参数：

模型类型（如从ResNet18改为ResNet50）
初始学习率（默认0.1）
训练轮数（默认300）
优化器类型（SGD/Adam等）
批大小（batch size）

通过多次实验，记录不同参数组合下的模型准确率。

第三步：使用NNI进行自动调参

安装配置NNI：在Linux系统中安装NNI并验证安装

准备搜索空间：创建search_space.json文件，定义各参数的搜索范围

{
  "initial_lr": {"_type": "loguniform", "_value": [0.0001, 0.1]},
  "batch_size": {"_type": "choice", "_value": [32, 64, 128, 256]},
  "optimizer": {"_type": "choice", "_value": ["SGD", "Adam", "RMSprop"]}
}

配置实验：创建config.yml文件，设置实验参数

authorName: default
experimentName: cifar10_hpo
trialConcurrency: 2
maxExecDuration: 1h
maxTrialNum: 20
trainingServicePlatform: local
searchSpaceFile: search_space.json
tuner:
  name: TPE
  classArgs:
    optimize_mode: maximize
trial:
  command: python main.py
  codeDir: .
  gpuNum: 1

运行实验：启动NNI实验并监控进度
分析结果：通过NNI的WebUI查看实验结果，找出最优参数组合

第四步：网络架构搜索（可选高级内容）

使用DARTS（Differentiable Architecture Search）方法
定义搜索空间（卷积操作、连接方式等）
运行架构搜索
使用搜索到的最佳架构重新训练模型

实验结果分析

性能对比

| 调参方式 | 典型参数设置 | 准确率提升 | |---------|------------|-----------| | 原始模型 | ResNet18, lr=0.1 | 基准值 | | 手动调参 | ResNet50, lr=0.01 | +5-10% | | NNI自动调参 | 自动优化参数 | +10-15% | | NAS架构搜索 | 自动设计架构 | +15-20% |