Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记
引言
多输入模态有望提高模型性能,但我们实际上发现即使多模态模型优于其单模态模型,它们也没有得到充分利用。 具体来说,在本文中,我们指出现有的多模态判别模型(其中为所有模态设计了统一的目标)可能仍然存在欠优化的单模态表示,这是由某些场景中的另一种主导模态引起的,例如,吹风事件中的声音 ,绘图事件中的视觉等。为了缓解这种优化不平衡,我们提出了动态梯度调制,通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。 此外,引入了动态变化的额外高斯噪声,以避免梯度调制引起的泛化下降。 因此,我们在不同的多模态任务上比常见的融合方法取得了相当大的改进,而且这种简单的策略也可以提升现有的多模态方法,这说明了它的有效性和多功能性
在某些情况下,使用联合训练策略优化所有模态的统一学习目标的多模态模型可能不如单模态模型。 这种现象违背了通过整合来自多种模式的信息来提高模型性能的意图。 有研究人员称,各种模式倾向于以不同的速率收敛,导致不协调的收敛问题 。 为了解决这个问题,一些方法在额外的单模态分类器或预训练模型的帮助下帮助训练多模态模型。 因此,它们不可避免地会在训练额外的神经模块方面付出额外的努力。
然而,我们进一步发现,即使多模态模型优于单模态模型,它们仍然无法充分发挥多模态的潜力。 如图 1 所示,联合多模态模型在 VGG