MMAction2 视频理解框架中的优化器自定义指南

最新推荐文章于 2025-06-09 09:03:36 发布

郁虹宝Lucille

最新推荐文章于 2025-06-09 09:03:36 发布

阅读量335

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01124/article/details/148524090

MMAction2 视频理解框架中的优化器自定义指南

mmaction2 OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark 项目地址: https://gitcode.com/gh_mirrors/mm/mmaction2

引言

在深度学习模型训练过程中，优化器的选择和配置对模型性能有着至关重要的影响。本文将详细介绍如何在 MMAction2 视频理解框架中自定义优化器及其相关策略，帮助开发者根据具体任务需求灵活调整训练过程。

优化器基础配置

优化器封装器(OptimWrapper)

MMAction2 采用 optim_wrapper 字段统一管理优化策略，这是一个高度集成的配置接口：

optim_wrapper = dict(
    type='OptimWrapper',
    optimizer=dict(type='SGD', lr=0.0003, weight_decay=0.0001)
)

这种封装设计使得优化器配置更加模块化，便于维护和扩展。

支持PyTorch原生优化器

框架无缝支持所有PyTorch原生优化器，只需简单修改配置即可切换：

optim_wrapper = dict(
    type='OptimWrapper',
    optimizer=dict(
        type='Adam',
        lr=0.001,
        betas=(0.9, 0.999),
        eps=1e-08,
        weight_decay=0,
        amsgrad=False
    )
)

高级优化策略

精细化参数配置

对于复杂模型结构，不同层往往需要不同的优化策略：

optim_wrapper = dict(
    optimizer=dict(type='SGD', lr=0.8, weight_decay=1e-4),
    paramwise_cfg=dict(
        norm_decay_mult=0.,  # 归一化层权重衰减归零
        bias_lr_mult=2.0,    # 偏置项学习率加倍
        custom_keys={
            'backbone.layer0': dict(lr_mult=0.5),  # 特定层学习率减半
            'head': dict(decay_mult=0.5)           # 头部权重衰减减半
        }
    )
)

梯度处理技术

梯度裁剪：防止梯度爆炸的稳定技术

optim_wrapper = dict(
    optimizer=dict(type='SGD', lr=0.01),
    clip_grad=dict(max_norm=35, norm_type=2)  # L2范数裁剪阈值35
)

梯度累积：模拟大批量训练的实用技巧

train_dataloader = dict(batch_size=64)
optim_wrapper = dict(
    optimizer=dict(type='SGD', lr=0.01),
    accumulative_counts=4  # 每4次迭代更新一次参数
)

动态参数调整策略

学习率调度

MMAction2 提供了丰富的学习率调整策略：

param_scheduler = [
    # 前1000次迭代线性预热
    dict(type='LinearLR',
         start_factor=0.001,
         by_epoch=False,
         end=1000),
    # 之后使用余弦退火
    dict(type='CosineAnnealingLR',
         by_epoch=True,
         T_max=epochs-10,
         begin=1000)
]

动量调度

动量参数也可以动态调整：

param_scheduler = [
    dict(type='LinearMomentum',
         start_factor=0.9,
         end_factor=0.99,
         by_epoch=True,
         begin=0, end=5)
]

扩展自定义优化器

实现新优化器

创建优化器类文件 my_optimizer.py：

from torch.optim import Optimizer
from mmaction.registry import OPTIMIZERS

@OPTIMIZERS.register_module()
class MyOptimizer(Optimizer):
    def __init__(self, params, a, b, c):
        # 实现初始化逻辑
        pass
    
    def step(self, closure=None):
        # 实现优化步骤
        pass

在配置中使用：

optim_wrapper = dict(
    optimizer=dict(type='MyOptimizer', a=1, b=2, c=3)
)

自定义优化器构造器

对于特殊参数分组需求，可自定义构造器：

@OPTIM_WRAPPER_CONSTRUCTORS.register_module()
class MyOptimConstructor:
    def __init__(self, optim_wrapper_cfg, paramwise_cfg=None):
        # 初始化逻辑
        pass
    
    def __call__(self, model):
        # 参数分组逻辑
        return optimizer