点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:目标检测,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
YOLOv9来了!性能全面超越现有的实时目标检测器,包括YOLO系列的代表YOLOv8和DETR的代表RT-DETR!
在深度网络中,输入数据在前向传播过程中丢失信息的现象通常被称为信息瓶颈。目前,可以缓解这一现象的主要方法为:(1)可逆架构的使用:使用重复输入数据并以显式方式保持输入数据的信息;(2)掩码建模的使用:利用重构损失并采用隐式方式来最大化提取的特征并保留输入信息;以及(3)深监督概念的引入:使用未丢失太多重要信息的浅层特征预先建立从特征到目标的映射,以确保重要信息能够传递到更深的层次。
然而,上述方法在训练过程和推理过程中存在不同的缺点。例如,可逆架构需要额外的层来组合重复馈送的输入数据,这将显著增加推理成本。此外,由于输入数据层到输出层不能有太深的路径,这种限制将使得在训练过程中对高阶语义信息的建模变得困难。至于掩码建模,其重构损失有时会与目标损失冲突。此外,大多数掩码机制还会与数据产生不正确的关联。对于深监督机制,它将产生误差积累,如果浅监督在训练过程中丢失信息,那么后续层将无法检索到所需的信息。上述现象在困难任务和小模型上将