论文标题:
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
论文作者:
Chien-Yao Wang, I-Hau Yeh, and Hong-Yuan Mark Liao
导读: YOLOv9有两大贡献:剔除可编程梯度信息(programmable gradient information,PGI)的概念;设计了一种新的基于梯度路径规划的轻量级网络架构GELAN,用于证明PGI在轻量级模型上的有效性。©️【深蓝AI】编译
1. 摘要
深度学习方法主要关注如何设计最优的目标函数和网络架构,以便模型预测结果尽可能接近真实值。然而,现有方法忽视了输入数据在经过多层特征提取和空间变换过程中会丢失大量信息的事实。本文探讨了这个关键问题,即信息瓶颈,并提出了可编程梯度信息(PGI)的概念来应对深度网络为实现多种目标所需的多样变化。
PGI可以为目标任务提供完整的输入信息以计算目标函数,从而获得可靠梯度信息更新网络权重。此外,论文还设计了一种新的轻量级网络架构——广义高效层聚合网络(GELAN),基于梯度路径规划。实验结果显示,在MS COCO数据集上的对象检测任务中,仅使用常规卷积操作的GELAN相较于基于深度卷积的最先进的方法实现了更好的参数利用率。同时,基于PGI的训练从零开始的模型性能优于使用大规模预训练数据集的最新模型。
通过可视化不同网络架构初始权重输出特征映射的结果,可以看出GELAN能够保留最多用于计算损失函数所需的信息,提供了最可靠的梯度信息。为了缓解信息瓶颈现象,文中探讨了几种现有方法,如可逆架构、掩码建模和深度监督等,并分析了它们各自的局限性。而提出的PGI机制克服了这些方法的问题,不仅适用于轻量级模型,也能应用于大型模型,确保在训练过程中获取完整信息并提升训练效果。
图1|在MS COCO数据集上进行实时对象检测器的比较中,基于GELAN和PGI设计的对象检测方法,在物体检测性能方面超越了以往所有从零开始训练的方法。©️【深蓝AI】编译
2. 主要贡献
本论文的主要贡献可以概括如下:
1)我们从可逆函数的角度,对现有的深度神经网络架构进行了理论分析,并通过这一过程成功解释了过去难以解释的许多现象。在此基础上,我们设计出了可编程梯度信息(PGI)和辅助可逆分支结构,并取得了优秀的实验结果。
2)所设计的PGI机制解决了深度监督只能应用于极深神经网络架构的问题,从而使得新型轻量级架构能够真正适用于日常生活中的各种场景。
3)我们所设计的广义高效层聚合网络(GELAN),仅采用常规卷积就实现了比基于最先进的深度卷积技术设计更高的参数利用率,并且表现出轻量、快速和精确等显著优点。
4)将提出的PGI与GELAN相结合,在MS COCO数据集上训练出的对象检测模型YOLOv9在所有方面都大幅超越了现有的实时对象检测器的顶级性能水平。
3. 问题描述
通常,人们将深度神经网络收敛困难的问题归因于梯度消失或梯度饱和等现象,在传统的深度神经网络中确实存在这些问题。然而,现代深度神经网络已经通过设计各种正则化技术和激活函数从根本上解决了上述问题。尽管如此,深度神经网络仍然存在收敛速度慢或者收敛结果不佳的问题。
这篇论文将进一步探究上述问题的本质。
通过对信息瓶颈的深度分析,我们推断出该问题的根本原因在于,初始梯度自一个非常深的网络传输后不久即丢失了大量的实现目标所需的信息。为了验证这一推论,我们使用初始权重前向传播了不同架构的深度网络,并在图2中对其进行了可视化和说明。显然,PlainNet在网络深层已经丢失了许多用于物体检测的重要信息。至于ResNet、CSPNet和GELAN能够保留重要信息的比例,确实与训练后可获得的准确性呈正相关关系。在此基础上,我们进一步设计了基于可逆网络的方法来解决上述问题。本节我们将详细阐述对信息瓶颈原理及可逆函数的分析。
图2|展示了不同网络架构下随机初始权重输出特征映射的可视化结果,包括:(a)输入图像、(b)PlainNet、©ResNet、(d)CSPNet 以及 (e)我们提出的GELAN。从该图中可以观察到,在各种不同的网络结构中,用于计算损失函数的信息在不同程度上有所丢失。©️【深蓝AI】编译
3.1 信息瓶颈理论
信息瓶颈理论指出,在数据经过变换过程中,原始数据X的信息会不可避免地丢失。
I(X,X)≥I(X,fθ(X))≥I(X,gΦfθ(X))I(X,X)≥I(X,f_\theta(X))≥I(X, g_ \Phi f_\theta(X))I(X,X)≥I(X,fθ