YOLOV9论文阅读
摘要
今天的深度学习方法侧重于如何设计最合适的目标函数,以便模型的预测结果可以最接近基本事实。同时,必须设计能够促进获取足够信息进行预测的适当架构。现有方法忽略了输入数据经过逐层特征提取和空间变换时的事实,会丢失大量信息。
当数据通过深度网络传输时,本文将深入研究数据丢失的重要问题,即信息瓶颈和可逆函数。
我们提出了可编程梯度信息 (PGI) 的概念来应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权重。
此外,设计了一种基于梯度路径规划的广义高效层聚合网络(GELAN)。GELAN 的架构证实 PGI 在轻量级模型上获得了更好的结果。
我们在基于 MS COCO 数据集的对象检测上验证了所提出的 GELAN 和 PGI。结果表明,GELAN 仅使用传统的卷积算子来实现比基于深度卷积开发的最先进方法更好的参数利用率。PGI 可用于从轻量级到大型的各种模型。它可用于获取完整的信息,以便从头开始训练模型比使用大型数据集预训练的最先进模型获得更好的结果
研究的问题:数据丢失
- 信息瓶颈
- 可逆函数。
过去的大多数方法都忽略了输入数据在前馈过程中可能具有不可忽略的信息丢失量。这种信息丢失会导致有偏差的梯度流,随后用于更新模型。上述问题可能导致深度网络建立目标与输入之间的不正确关联,导致训练模型产生不正确的预测
提出解决问题的方法:
-
可编程梯度信息 (PGI)
-
一种基于梯度路径规划的广义高效层聚合网络(GELAN)

信息瓶颈
在深度网络中,前馈过程中输入数据丢失信息的现象通常被称为信息瓶颈

目前,缓解这一现象的主要方法如下:
-
可逆体系结构的使用。该方法主要使用重复输入数据,以显式的方式维护输入数据的信息;
-
掩码建模的使用。它主要使用重构损失,采用隐式方法最大化提取的特征并保留输入信息;
-
深度监督概念的引入。它使用丢失太多重要信息的浅层特征来预先建立从特征到目标的映射,以确保重要信息可以转移到更深的层。
然而,上述方法在训练过程中和推理过程存在不同的缺点。
- 可逆架构需要额外的层来组合重复输入的输入数据,这将显着增加推理成本。此外,由于输出层的输入数据层不能具有太深的路径,这种限制使得在训练过程中难以对高阶语义信息进行建模。
- 掩码建模,它的重建损失有时会与目标损失相冲突。此外,大多数掩码机制也会产生与数据不正确的关联。
- 对于深度监督机制,它将产生错误累积,如果浅层监督在训练过程中丢失信息,后续层将无法检索所需的信息。上述现象在困难的任务和小模型上会更显着。
为了解决上述问题,我们提出了一个新的概念,即可编程梯度信息 (PGI)
这个概念是通过辅助可逆分支生成可

最低0.47元/天 解锁文章
1448

被折叠的 条评论
为什么被折叠?



