文章汉化系列目录
文章目录
摘要
在多模态与单模态网络进行端到端训练、并处理包含多种输入模态的任务时,多模态网络理论上应当因接收了更多信息而能够匹配甚至优于单模态网络的表现。
然而,在我们的实验中,我们却观察到了相反的结果:性能最好的单模态网络往往优于多模态网络。
这一现象在不同模态组合、不同任务以及视频分类的不同基准数据集上都很一致。
本文指出,这种性能下降主要有两个原因:
首先,多模态网络由于容量更大,更容易发生过拟合;
其次,不同模态的过拟合速度和泛化能力差异较大,用单一的优化策略对它们进行联合训练往往并不理想。
针对这两个问题,我们提出了一种名为 梯度融合(Gradient Blending) 的技术,该方法根据不同模态的过拟合特性,计算出最优的模态融合方式。
实验结果表明,梯度融合不仅优于广泛使用的防止过拟合的基线方法,还在包括人体动作识别、第一视角动作识别以及声学事件检测等多种任务中取得了当前最优的准确率。
帮你详细讲解 Gradient Blending 的原理。
这个方法主要是为了解决两大问题:
- 多模态网络容易过拟合(因为参数多、容量大)
- 不同模态的过拟合速度和泛化能力不同(统一训练策略往往会让部分模态拖后腿)
您提到的这段内容确实出自论文 “What Makes Training Multi-Modal Classification Networks Hard?”(Wang et al., CVPR 2020, 也可在 arXiv:1905.12681 查到),该部分是论文摘要中的核心描述,关于多模态网络为何反而表现弱于最佳单模态网络的两个主要原因——过拟合以及不同模态在训练中表现不一致,并引入了 Gradient Blending(梯度融合) 方法来解决这些问题 ([arxiv.org][1])。
您若需要进一步了解该论文中 Gradient Blending 的原理和数学细节,我可以继续为您详细解释其方法中的公式定义、训练流程以及实验结果,帮助您全面掌握该技术。
下面是原理:
1. 问题背景
在多模态分类任务中,比如视频分类,可能会用 RGB 视频帧、光流、音频 等模态。
- 如果直接将它们输入同一个多模态网络并进行端到端训练,理论上信息更多,应当效果更好。
- 但实际上,最佳单模态模型往往比多模态模型准确率高。
原因:
- 过拟合问题:多模态网络参数量更大,更容易在训练集上记住数据而不能泛化。
- 模态学习速率不一致:例如,RGB 特征可能在早期就接近收敛,而音频模态可能还在稳步提升,如果用相同学习率、同样的优化步骤,会让表现好的模态被表现差的模态“拖慢”甚至“破坏”。
2. 核心思想
Gradient Blending 的目标是:
在训练过程中动态调整每个模态对梯度更新的贡献权重,让学习速度快的模态少干扰其他模态,让慢模态有机会追上,从而整体更好地泛化。
这与普通的“特征融合”不同,它是在 梯度层面 动态加权,而不是在前向推理时简单拼接或加权特征。
3. 方法原理
假设我们有 M M M 个模态,每个模态 m m m 都有一个对应的损失函数 L m L_m Lm,模型的总损失是这些损失的加权和:
L total = ∑ m = 1 M w m L m L_{\text{total}} = \sum_{m=1}^M w_m L_m Ltotal=m=1∑MwmLm
- w m w_m wm 是模态权重(动态变化)
- 每个 L m L_m Lm 对应模态 m m m 的分类误差
3.1 权重如何确定
论文的关键贡献是:
-
不是固定 w m w_m wm(比如 1/M),而是根据模态的过拟合行为来自动调整
-
过拟合行为的度量方法:
- 计算训练集精度 a m t r a i n a^{train}_m amtrain 和验证集精度 a m v a l a^{val}_m amval
- 过拟合度 Δ m = a m t r a i n − a m v a l \Delta_m = a^{train}_m - a^{val}_m Δm=amtrain

最低0.47元/天 解锁文章
1253

被折叠的 条评论
为什么被折叠?



