近年来,计算机视觉领域取得了长足的进步。特别是目标检测算法YOLO(You Only Look Once)在实时物体检测方面表现出色,其简洁而高效的设计备受瞩目。为了进一步提升YOLO的性能,研究人员不断致力于改进其主干网络结构。
最新研究中,结合最新的QARepVGG和Rep结构,我们提出了一种全新的主干网络结构QARepNeXt,旨在再一次让RepVGG变得更好,并采用了美团提出的一种量化感知方法。
QARepNeXt结构的原创改进
QARepNeXt是基于QARepVGG和Rep结构的改进版。RepVGG作为一个轻量级的卷积神经网络,通过将卷积层分为两个子层,一个执行卷积操作,另一个执行恒等映射(identity mapping),并将二者相加,以实现网络的非常规宽度。而QARepVGG则进一步改进了RepVGG,引入了注意力机制,使得网络更加注重关键信息的提取。
我们在QARepVGG的基础上进行了一系列改进,进而形成了QARepNeXt结构。首先,我们引入了NeXt(NeXt Evolution)模块,该模块采用了残差连接和分组卷积的方式,增强了网络的非线性表达能力。其次,我们在NeXt模块中加入了深度可分离卷积,以减少参数数量和计算量,提高模型的轻量级特性。
在实际应用中,我们发现QARepNeXt相比于QARepVGG在物体检测任务上有着更好的性能表现。经过大量实验和对比分析,QARepNeXt在保持较低计算复杂度的同时,能够有效降低漏检率和误检率,提升目标检测的精度和鲁棒性。
量化感知方法的应用
为了进一步优化QARepNeXt,我们借鉴了美团提出的一种量化感知方法。该方法通过对网络权重的量化和剪枝,以及对量化后模型的finetune来达到模型轻量化和加速的