计算机视觉研究院 | YOLOv9

最新推荐文章于 2025-01-21 11:30:55 发布

双木的木

最新推荐文章于 2025-01-21 11:30:55 发布

阅读量853

点赞数 8

分类专栏： CV-目标检测专栏文章标签：计算机视觉人工智能 transformer python 深度学习 YOLO 图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/csdn_xmj/article/details/140111005

版权

本文来源公众号“计算机视觉研究院”，仅用于学术分享，侵权删，干货满满。

原文链接：YOLOv9

现在的深度学习方法侧重于如何设计最合适的目标函数，使模型的预测结果最接近实际情况。同时，必须设计一种适当的架构，该架构可以促进获取足够的信息用于预测。

PART/1 前言

现有的方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，会丢失大量信息。本文将深入研究数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念，以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数，从而获得可靠的梯度信息来更新网络权重。此外，还设计了一种新的基于梯度路径规划的轻量级网络架构——广义高效层聚合网络（GELAN）。GELAN的架构证实了PGI在轻量级模型上取得了卓越的成果。我们在基于MS COCO数据集的目标检测上验证了所提出的GELAN和PGI。结果表明，与基于深度卷积开发的最先进方法相比，GELAN仅使用传统的卷积算子来实现更好的参数利用率。PGI可以用于从轻量级到大型的各种模型。它可以用于获得完整的信息，因此从头开始训练的模型可以获得比使用大型数据集预先训练的现有模型更好的结果，比较结果如下图所示。

PART/2 前言

在深度网络中，输入数据在前馈过程中丢失信息的现象通常被称为信息瓶颈，其原理图如下图所示。

目前，可以缓解这一现象的主要方法有：（1）可逆架构的使用：这种方法主要使用重复的输入数据，并以显式的方式维护输入数据的信息；（2）掩模建模

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。