文章目录
引言
YOLOv8的背景与挑战
YOLOv8作为目标检测领域的先进模型,凭借其快速准确的特点被广泛应用。然而,在处理复杂场景时,模型的特征识别效率仍有提升空间。复杂场景中的目标可能具有不同的尺度、姿态和遮挡情况,这对模型的特征提取和理解能力提出了更高的要求。
ACmix模型的引入动机
为了应对上述挑战,本文提出在YOLOv8中引入ACmix自注意力与卷积混合模型。ACmix通过结合自注意力机制的全局感知能力和卷积操作的局部特征提取优势,旨在提高YOLOv8在复杂场景下的目标检测性能,增强模型对不同尺度和姿态目标的适应性,同时保持较低的计算开销。
ACmix模型原理
理论基础
ACmix模型的核心思想是发现传统卷积操作和自注意力模块之间存在共同的操作基础。具体来说,k×k卷积可以分解为k²个1×1卷积加上位移和求和操作,而自注意力模块中的查询、键和值的投影也可以视为多个1×1卷积。这种内在联系使得ACmix能够以一种高效的方式整合这两种强大的表示学习技术。
架构设计
ACmix模块首先使用1×1卷积对输入特征图进行投影,生成中间特征。然后,通过自注意力和卷积两种范式分别重用和聚合这些特征