YOLOv11全网最新创新点改进系列:改变传统卷积的局限性,提出全新独立创新模块-LKAConv,自注意的自适应和远程相关性的新型卷积操作,全方位提升YOLOv11的鲁棒性!

YOLOv11全网最新创新点改进系列:改变传统卷积的局限性,提出全新独立创新模块-LKAConv,自注意的自适应和远程相关性的新型卷积操作,全方位提升YOLOv11的鲁棒性!

所有改进代码均经过实验测试跑通!截止发稿时YOLOv11已改进40+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽!

购买相关资料后畅享一对一答疑

YOLOv11全网最新创新点改进系列:改变传统卷积的局限性,提出全新独立创新模块-LKAConv,自注意的自适应和远程相关性的新型卷积操作,全方位提升YOLOv11的鲁棒性!!!


详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

LKA提出全文戳这

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

前言

提出理由之一:
常规卷积感受野受限

问题:普通卷积的感受野是由卷积核的大小和堆叠的层数决定的。单个卷积核只能关注局部的区域,导致模型对远距离像素之间的依赖关系捕获能力较弱。

影响:对于需要长距离依赖的信息(如全局上下文信息)的任务(如语义分割、大场景理解),这种局限性可能会降低模型性能

提出理由之二:

对全局特征捕获能力弱(Weak Global Feature Representation)

问题:普通卷积倾向于捕获局部特征,而无法充分利用全局信息。

影响:这会限制模型在需要全局理解的任务中的表现。

一、简介

虽然自注意力机制最初是为自然语言处理任务而设计的,但它最近已经席卷了各个计算机视觉领域。 然而,图像的 2D 性质给计算机视觉中应用自注意力带来了三个挑战。 (1) 将图像视为一维序列忽略了它们的二维结构。 (2)二次复杂度对于高分辨率图像来说太昂贵。 (3)它只捕获了空间适应性而忽略了通道适应性。 在本文中,我们提出了一种新颖的线性注意,称为大核注意(LKA),以实现自注意的自适应和远程相关性,同时避免其缺点。 此外,我们提出了一种基于 LKA 的神经网络,即视觉注意网络(VAN)。 虽然非常简单,但 VAN 在各种任务中都超越了类似尺寸的视觉变换器(ViT)和卷积神经网络(CNN),包括图像分类、目标检测、语义分割、全景分割、姿态估计等。例如,VAN-B6 达到了 87.8 在 ImageNet 基准测试中提高了 % 准确率,并为全景分割设置了新的最先进性能 (58.2 PQ)。 此外,VAN-B2 在 ADE20K 基准上的语义分割超过了 Swin-T 4% mIoU(50.1 vs. 46.1),在 COCO 数据集上的对象检测超过了 2.6% AP(48.8 vs. 46.2)。 它为社区提供了一种新颖的方法和简单而强大的基线。 代码可在 https://github.com/Visual-Attention-Network 获取。

2 介绍

作为基本特征提取器,视觉主干是计算机视觉领域的一个基础研究课题。 由于出色的特征提取性能,卷积神经网络(CNN)[1]、[2]、[3]是过去十年中不可或缺的课题。 AlexNet [3] 重新开启深度学习十年后,通过使用更深的网络 [4]、[5]、更高效的架构 [6]、[7]、[ 8],更强的多尺度能力[9],[10],[11],以及注意力机制[12],[13]。 由于平移不变性和共享滑动窗口策略 [14],CNN 对于具有任意大小输入的各种视觉任务本质上是有效的。 更先进的视觉骨干网络通常会在各种任务中带来显着的性能提升,包括图像分类[5]、[13]、[15]、对象检测[16]、语义分割[17]和姿势估计[18]。 根据观察到的反应时间和估计的生物通路信号传输时间 [23],认知心理学 [24] 和神经科学 [25] 研究人员认为,人类视觉系统仅详细处理部分可能的刺激,而其余部分几乎未处理。 选择性注意是处理视觉中复杂搜索的组合方面的重要机制[26]。 注意力机制可以看作是一种基于输入特征的自适应选择过程。 自从提出完全注意力网络[27]以来,自注意力模型(又名 Transformer)迅速成为自然语言处理(NLP)中的主导架构[28]、[29]。 最近,多索维茨基等人。 [13]提出了视觉变压器(ViT),它将变压器主干引入计算机视觉,在图像分类任务上优于著名的CNN。受益于其强大的建模能力,基于变压器的视觉主干迅速占据了各种任务的排行榜,包括目标检测[ 15]、语义分割[17]等。即使取得了显着的成功,卷积操作和自注意力仍然有其缺点。 卷积运算采用静态权重,缺乏适应性,这一点已被证明很关键[12]、[16]。 由于最初是为 1D NLP 任务设计的,selfattention [13]、[13] 将 2D 图像视为 1D 序列,这破坏了图像关键的 2D 结构。 由于其二次计算和内存开销,处理高分辨率图像也很困难。 此外,自注意力是一种只考虑空间维度的适应性而忽略通道维度的适应性的特殊注意力,这对于视觉任务也很重要[12],[30],[31],[32]。 在本文中,我们提出了一种新颖的线性注意力机制,称为大内核注意力(LKA),它是为视觉任务量身定制的。 LKA吸收了卷积和自注意力的优点,包括局部结构信息、长程依赖和适应性。 同时避免了它们忽视信道维度适应性等缺点。 基于 LKA,我们提出了一种称为视觉注意网络 (VAN) 的新型视觉主干,它显着超越了众所周知的基于 CNN 和基于 Transformer 的主干。

亮点

本文的贡献总结如下:
• 我们为计算机视觉设计了一种新颖的线性注意力机制,名为LKA,它考虑了卷积和自注意力的优点,同时避免了它们的缺点。 在LKA的基础上,我们进一步引入了一个简单的视觉主干,称为VAN。
• 我们表明,VAN 在各种任务的广泛实验中优于类似水平的 ViT 和 CNN,包括图像分类、对象检测、语义分割、实例分割、姿态估计等。

三、 改进源码

B站私信 Ai学术叫叫首
本UP主 B站链接 戳这里!!!

四、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:AI学术叫叫兽
从此走上科研快速路
遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

五、写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在动态中有链接,感谢支持!祝科研遥遥领先!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值