MMPretrain 项目运行参数配置完全指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00014/article/details/148574927

MMPretrain 项目运行参数配置完全指南

mmpretrain OpenMMLab Pre-training Toolbox and Benchmark 项目地址: https://gitcode.com/gh_mirrors/mm/mmpretrain

前言

在深度学习模型训练过程中，合理的运行参数配置对于提高训练效率、保证实验可复现性以及优化资源利用至关重要。本文将全面介绍 MMPretrain 框架中的运行参数配置方法，帮助开发者更好地控制训练过程。

权重文件管理

自动保存机制

MMPretrain 通过 CheckpointHook 提供了灵活的权重文件保存功能。在配置文件中，我们可以这样设置：

default_hooks = dict(
    checkpoint = dict(
        type='CheckpointHook',
        interval=1,           # 每1个epoch保存一次
        by_epoch=True,       # 按epoch计数
        out_dir='checkpoints', # 保存目录
        max_keep_ckpts=5,    # 只保留最近5个权重文件
        save_best='auto'     # 自动保存最佳模型
    )
)

关键参数解析：

interval 和 by_epoch 共同决定了保存频率，可以按epoch或iteration计算
save_best 支持多种模式：
- "auto"：自动选择验证集上的最佳指标
- "accuracy_top-1"：跟踪top-1准确率
- 也可以指定多个指标，如 ['accuracy_top-1', 'accuracy_top-5']

断点续训技巧

MMPretrain 提供了两种恢复训练的方式：

从指定检查点恢复：

load_from = 'path/to/checkpoint.pth'
resume = True

自动恢复最新检查点：

load_from = None
resume = True

实用建议：

对于长时间训练任务，建议使用自动恢复功能
恢复训练时会自动恢复优化器状态、学习率调度器等所有必要信息

实验可复现性配置

随机性控制

深度学习实验的可复现性是一个重要课题。MMPretrain 提供了完善的随机性控制机制：

randomness = dict(
    seed=42,               # 固定随机种子
    deterministic=True     # 启用确定性算法
)

注意事项：

设置 deterministic=True 可能会轻微影响性能
即使固定随机种子，在不同硬件或CUDA版本上结果仍可能有差异
对于卷积运算，确定性模式可能会导致性能下降

日志系统详解

多级日志配置

MMPretrain 的日志系统采用分层设计：

全局日志级别设置：

log_level = 'INFO'  # 可选DEBUG, INFO, WARNING, ERROR, CRITICAL

训练日志间隔：

default_hooks = dict(
    logger=dict(type='LoggerHook', interval=100)  # 每100次迭代记录一次
)

日志平滑处理：

log_processor = dict(
    window_size=10,       # 滑动窗口大小
    custom_cfg=[          # 自定义指标处理
        dict(data_src='loss', method='mean', window_size=100),
    ]
)

可视化后端支持

MMPretrain 支持多种可视化后端：

visualizer = dict(
    type='UniversalVisualizer',
    vis_backends=[
        dict(type='LocalVisBackend'),        # 本地保存
        dict(type='TensorboardVisBackend'), # TensorBoard
        dict(type='WandbVisBackend'),       # Weights & Biases
        dict(type='MLflowVisBackend')       # MLflow
    ]
)

选择建议：

本地后端：基础需求，适合快速实验
TensorBoard：适合大规模实验跟踪
WandB：提供完善的实验管理和协作功能

高级钩子应用

自定义钩子示例

MMPretrain 允许插入各种自定义钩子来扩展功能：

custom_hooks = [
    # 指数移动平均(EMA)钩子
    dict(type='EMAHook', momentum=0.0001, priority='ABOVE_NORMAL'),
    
    # GPU缓存清理钩子
    dict(type='EmptyCacheHook', priority='LOW'),
    
    # 类别数量检查钩子
    dict(type='ClassNumCheckHook')
]

典型应用场景：

EMA：提升模型鲁棒性，常用于目标检测等任务
EmptyCache：在显存不足时定期清理缓存
ClassNumCheck：验证数据集类别数与模型配置是否匹配

验证可视化功能

验证可视化功能可以帮助开发者直观了解模型表现：

default_hooks = dict(
    visualization=dict(
        type='VisualizationHook',
        enable=True,               # 启用可视化
        interval=10,              # 每10个epoch可视化一次
        show=False,               # 不直接显示图像
        draw_gt=True,            # 绘制真实标签
        draw_pred=True,          # 绘制预测结果
        rescale_factor=1.5       # 图像缩放因子
    )
)

使用技巧：

对于小尺寸数据集(如CIFAR)，适当增大 rescale_factor 便于观察
可以配合TensorBoard或WandB后端实现远程查看可视化结果

环境配置优化

底层性能调优

env_cfg = dict(
    cudnn_benchmark=True,  # 启用cuDNN基准测试(固定输入大小时推荐)
    mp_cfg=dict(
        mp_start_method='fork',  # 多进程启动方式
        opencv_num_threads=4    # OpenCV线程数
    ),
    dist_cfg=dict(
        backend='nccl',         # 分布式通信后端
        timeout=1800           # 超时时间(秒)
    )
)

调优建议：