Yolo系列论文阅读:YOLOv9《What You Want to Learn Using Programmanble Gradient Information》

本文提出可编程梯度信息(PGI)和广义高效层聚合网络(Gelan),以解决深度学习中信息丢失和深层监督的局限。PGI确保完整信息传递,Gelan则在轻量级模型上实现高效。YOLOv9在目标检测上表现出色,参数和计算效率优于现有方法。

YOLOv8才出了不到一年,YOLOv9便已经横空出世,下面让我们看看YOLOV9的论文吧。
论文地址:https://arxiv.org/pdf/2402.13616.pdf
代码地址:https://github.com/WongKinYiu/yolov9

1 摘要

如今的深度学习方法关注的是如何设计最合适的目标函数,使模型的预测结果最接近地面真实。同时,必须设计一个合适的架构,以便于获取足够的信息来进行预测。现有的方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,会丢失大量信息。本文将深入研究数据在深度网络中传输时的数据丢失问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权重。此外,设计了一种新的基于梯度路径规划的轻量级网络体系结构–广义高效层聚合网络(Gelan)。Gelan的架构证实了PGI在轻量化模型上取得了优异的结果。在基于MS Coco数据集的目标检测上,验证了Gelan和PGI算法的有效性。结果表明,与基于深度卷积的最新方法相比,Gelan只使用传统的卷积算子来获得更好的参数利用率。PGI可用于从轻型到大型的各种型号。它可以用来获得完整的信息,这样从头开始训练的模型可以获得比使用大型数据集预先训练的最先进模型更好的结果。
在这里插入图片描述

2 主要贡献

  1. 从可逆函数的角度对现有的深度神经网络体系结构进行了理论分析,并通过这个过程成功地解释了许多过去难以解释的现象,并在此基础上设计了PGI和辅助可逆支路,取得了良好的效果。
  2. 我们设计的PGI解决了深度监督只能用于极深的神经网络体系结构的问题,从而使新的轻量级体系结构真正应用到日常生活中。
  3. 我们设计地GELAN只使用常规卷积来实现比基于最先进技术的深度卷积设计更高的参数使用率,同时显示出轻便、快捷、准确的巨大优势。
  4. 将所提出的PGI和GELAN相结合,YOLOv9在MS COCO数据集上的目标检测性能在各个方面都大大超过了现有的目标检测器。

3 问题陈述

通常,人们将深度神经网络的收敛困难归因于梯度消失或梯度饱和等因素,而这些现象在传统的深度神经网络中确实存在。然而,现代深度神经网络已经通过设计各种归一化函数和激活函数从根本上解决了上述问题。然而,深度神经网络仍然存在收敛速度慢或收敛效果差的问题。在本文中,我们对上述问题的性质进行了进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值