YOLO算法改进Backbone系列之:ParC-Net

最近视觉transformer开始显示出令人印象深刻的结果,其性能明显优于基于大卷积的模型。然而,在移动设备或资源受限设备的小型模型领域,卷积神经网络在性能和模型复杂性方面仍然具有自身的优势。本文提出了ParC-Net,这是一种纯粹基于卷积神经网络的骨干模型,通过将视觉transformer的优点融合到卷积神经网络中,进一步增强了这些优点。具体来说,我们提出了位置感知循环卷积(ParC),这是一种轻量级的卷积算子,它具有全局接受场,同时产生与局部卷积一样的位置敏感特征。我们将parc和squeeze-exictation点结合在一起,形成了一个类似于metaformer的模型块,该模型块进一步具有类似于transformer的注意机制。上述模块可以以即插即用的方式替代卷积网络或transformer中的相关模块。实验结果表明,在常见的视觉任务和数据集上,所提出的ParC-Net在参数更少、推理速度更快的情况下,取得了比流行的轻量级卷积神经网络和基于视觉transformer的模型更好的性能。在ImageNet-1k上,ParC-Net使用约500万个参数实现了78.6%的top-1准确率,节省了11%的参数和13%的计算成本,但与MobileViT相比,准确率提高了0.2%,推理速度提高了23%(基于ARM的瑞芯RK3288),与DeIT相比,仅使用0.5个参数,准确率提高了2.7%。在MS-COCO对象检测和PASCAL VOC分割任务上,ParC-Net也表现出较好的性能。源代码可在https: //github.com/hkzhang91/ParC-Net

背景:ViTs和ConvNets都是必不可少的:
(1)从应用角度来看,ViTs和ConvNets都有各自的优点和缺点。ViT模型通常具有较好的性能,但通常存在计算成本高且难

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值