paper: https://arxiv.org/abs/2402.13616
code
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
今天的深度学习方法关注的是如何设计最合适的目标函数,使模型的预测结果最接近真值的情况。同时,必须设计一个适当的体系结构,以方便获取足够的预测信息。现有方法忽略了一个事实,即输入数据在逐层进行特征提取和空间变换时,会丢失大量的信息。这篇论文深入研究了数据在深度网络中传输时的重要数据丢失问题,即信息瓶颈和可逆函数。作者提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。
PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权值。此外,设计了一种新的基于梯度路径规划的轻量级网络结构——广义高效层聚合网络(GELAN)。
GELAN的架构证实了PGI在轻量化模型上取得了卓越的成果。作者在基于MS COCO数据集的目标检测上验证了提出的GELAN和PGI。结果表明,与基于深度卷积的最新方法相比,GELAN仅使用常规卷积算子可以获得更好的参数利用率。PGI可用于从轻型到大型的各种模型。它可以用来获取完整的信息,使得从头开始训练的模型比使用大数据集预训练的最先进的模型获得更好的结果,对比结果如下图所示。

一、引言部分
近年来,随着计算机视觉的发展,大多数的方法都忽略了输入数据在前馈过程中可能具有不可忽略的信息损失。这种信息的丢失会导致有偏差的梯度流,这些梯度流随后被用来更新模型。上述问题可能导致深度网络在目标和输入之间建立不正确的关联,从而导致训练模型产生不正确的预测。
在深度网络中,输入数据在前馈过程中丢失信息的现象通常被称为信息瓶颈。其原理图如下图所示。
目前,缓解这一现象的主要方法有。(1)使用可逆架构:该方法主要利用重复输入数据,并以显式的方式维护输入数据的信息;(2)使用掩模建模:主要利用重构损失,采用隐式方式最大限度地提取特征并保留输入信息;(3)引入深度监督的概念:它利用没有丢失太多重要信息的浅层特征,预先建立特征到目标的映射,保证重要信息能够传递到更深层。
然而,上述方法在训练过程和推理过程中都有不同的缺点。例如,可逆架构需要额外的层来组合重复输入的数据,这将显著增加推理成本。此外,由于输入数据层到输出层不能有太深的路径,这一限制将使在训练过程中难以对高阶语义信息进行建模。对于掩模建模,其重建损失有时与目标损失相冲突。此外,大多数掩码机制也会与数据产生不正确的关联。对于深层监督机制,会产生误差积累,如果浅层监督在训练过程中丢失信息,后续层将无法检索到所需的信息。上述现象在难度较大的任务和较小的模型上更为明显。
为了解决上述问题,作者提出了一个新的概念,即可编程梯度信息(PGI)。其思想是通过辅助可逆分支生成可靠的梯度,使深层特征仍能保持关键特征以执行目标任务。
辅助可逆分支的设计可以避免传统的多路径特征融合深度监督过程可能造成的语义损失。在不同的语义层次上对梯度信息传播进行编程,从而获得最佳的训练结果。PGI的可逆结构构建在辅助分支上,所以没有额外的参数开销。
由于PGI可以自由选择适合目标任务的损失函数,它也克服了掩模建模所遇到的问题。所提出的PGI机制可以应用于各种规模的深度神经网络,并且比深度监督机制更通用,而深度监督机制只适用于非常深度的神经网络。
这篇文章的贡献如下:
1、从可逆函数的角度对现有的深度神经网络架构进行了理论分析,并通过这一过程成功地解释了许多过去难以解释的现象。在此基础上设计了PGI和辅助可逆分支。
2、设计的PGI解决了深度监督只能用于极深度神经网络架构的问题,从而使新的轻量级架构真正应用于日常生活中。
3、GELAN仅使用常规卷积,实现了比基于最先进技术的深度卷积设计更高的参数使用率,同时显示出轻、快、准的巨大优势。
二、问题分析
通常,人们将深度神经网络收敛问题的困难归因于梯度消失或梯度饱和等因素,这些现象在传统的深度神经网络中确实存在。而现代深度神经网络通过设计各种归一化和激活函数,已经从根本上解决了上述问题。然而,深度神经网络仍然存在收敛速度慢或收敛效果差的问题。
通过对信息瓶颈的深入分析,作者推断出这个问题的根本原因是原本来自非常深的网络的初始梯度在传输后不久就丢失了大量实现目标所需的信息。为了证实这一推断,作者对具有初始权重的不同架构的深度网络进行前馈,结果如下图所示。

显然,PlainNet丢失了许多深层目标检测所需的重要信息。至于ResNet、CSPNet和GELAN能保留的重要信息比例,确实与训练后能获得的准确率呈正相关。我们进一步设计了基于可逆网络的方法来解决上述问题的原因。
2.1 信息瓶颈原理
根据信息瓶颈原理,数据X在进行变换时可能会造成信息丢失,如下式1所示:

式中, I I I为交互信息, f f f和 g g g为变换函数, θ θ θ和 φ φ φ分别为

最低0.47元/天 解锁文章
1274

被折叠的 条评论
为什么被折叠?



