MMPretrain项目运行时配置详解：从检查点到可视化全掌握-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00386/article/details/148574902

MMPretrain项目运行时配置详解：从检查点到可视化全掌握

mmpretrain OpenMMLab Pre-training Toolbox and Benchmark 项目地址: https://gitcode.com/gh_mirrors/mm/mmpretrain

前言

在深度学习模型训练过程中，合理的运行时配置对训练效率、结果复现和资源管理至关重要。MMPretrain作为开源的深度学习预训练模型库，提供了一套完善的运行时配置系统。本文将全面解析MMPretrain中的运行时配置选项，帮助开发者更好地控制训练过程。

检查点管理

检查点保存配置

MMPretrain通过CheckpointHook实现模型检查点的自动保存功能。在配置文件中，我们可以这样设置：

default_hooks = dict(
    checkpoint = dict(
        type='CheckpointHook', 
        interval=1,           # 每1个epoch保存一次
        by_epoch=True,       # 按epoch计数
        out_dir='checkpoints',# 保存目录
        max_keep_ckpts=3,    # 只保留最新的3个检查点
        save_best='auto'     # 自动保存最佳模型
    )
)

关键参数说明：

interval：保存间隔，可以设置为epoch数或迭代次数
save_best：支持自动选择评估指标保存最佳模型，也可指定具体指标如'accuracy/top1'

检查点加载与恢复训练

MMPretrain提供了灵活的检查点加载机制：

# 从指定路径加载检查点
load_from = '/path/to/checkpoint.pth'

# 是否从检查点恢复训练
resume = True

使用技巧：

设置resume=True且load_from=None时，会自动从工作目录中查找最新检查点
训练脚本支持命令行参数--resume快速恢复训练

随机性控制

为了保证实验可复现性，MMPretrain提供了随机种子配置：

randomness = dict(
    seed=42,            # 固定随机种子
    deterministic=True   # 启用确定性算法
)

注意事项：

设置deterministic=True可能会影响性能
完全复现可能需要考虑CUDA、cuDNN等底层实现的随机性

日志系统配置

多级日志记录

MMPretrain采用分层次的日志配置：

全局日志级别设置：

log_level = 'INFO'  # 可选DEBUG, INFO, WARNING, ERROR, CRITICAL

训练日志间隔：

default_hooks = dict(
    logger=dict(type='LoggerHook', interval=100)  # 每100次迭代记录一次
)

日志平滑处理：

log_processor = dict(window_size=10)  # 使用10次迭代的滑动平均

可视化后端

MMPretrain支持多种日志可视化后端：

visualizer = dict(
    type='UniversalVisualizer',
    vis_backends=[
        dict(type='LocalVisBackend'),      # 本地存储
        dict(type='TensorboardVisBackend'), # TensorBoard
        dict(type='WandbVisBackend'),       # Weights & Biases
    ]
)

自定义Hook扩展

MMPretrain基于Hook机制提供了强大的扩展能力。常用内置Hook包括：

EMAHook：实现模型参数指数移动平均
SyncBuffersHook：同步多GPU间的缓冲区
ClassNumCheckHook：验证类别数一致性

示例：启用EMA（指数移动平均）

custom_hooks = [
    dict(type='EMAHook', momentum=0.0001, priority='ABOVE_NORMAL')
]

验证可视化

MMPretrain支持在验证过程中可视化预测结果：

default_hooks = dict(
    visualization=dict(
        type='VisualizationHook',
        enable=True,         # 启用可视化
        resize_factor=2.0   # 图像放大因子
    )
)

这个功能对于直观观察模型在验证集上的表现变化非常有帮助。

环境配置

高级用户可以调整底层环境参数：

env_cfg = dict(
    cudnn_benchmark=False,  # 是否启用cuDNN基准测试
    mp_cfg=dict(
        mp_start_method='fork',  # 多进程启动方式
        opencv_num_threads=0     # OpenCV线程数
    ),
    dist_cfg=dict(backend='nccl')  # 分布式后端
)

注意事项：