
YOLOv10 创新改进
文章平均质量分 96
YOLOv10新改进 !包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、 轻量级网络设计等创新改进。 改进内容支持分类、检测、分割 。
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
YOLO大师
这个作者很懒,什么都没留下…
展开
-
YOLOv10有效改进系列及项目实战目录:卷积,主干 注意力,检测头等创新机制
本专栏不仅关注最新的研究成果,还会持续更新和回顾那些经过实践验证的改进机制。包括:注意力机制替换、卷积优化、检测头创新、损失与IOU优化、block优化与多层特征融合、轻量级网络设计等改进思路,帮助您实现全方位的创新。每篇文章都附带详细的步骤和源码,便于您的论文写作和项目实现。每周发布3-10篇最新创新机制文章,确保时刻掌握前沿内容。原创 2024-07-13 20:00:21 · 1910 阅读 · 2 评论 -
【YOLOv10改进 -注意力机制】SGE(Spatial Group-wise Enhance):轻量级空间分组增强模块
卷积神经网络(CNNs)通过收集语义子特征的层次化和不同部分来生成复杂对象的特征表示。这些子特征通常可以在每层特征向量中以分组形式分布,代表各种语义实体 [43, 32]。然而,这些子特征的激活往往受到相似模式和噪声背景的空间影响,导致错误的定位和识别。我们提出了一种空间分组增强(SGE)模块,通过为每个语义组中的每个空间位置生成注意力因子来调整每个子特征的重要性,从而使每个单独的组能够自主增强其学习到的表达并抑制可能的噪声。原创 2024-07-10 23:04:02 · 582 阅读 · 0 评论 -
【YOLOv10改进】VanillaNet:极简的神经网络,利用VanillaBlock降低YOLOV10参数
基础模型的核心理念是“更多即不同”,这一理念在计算机视觉和自然语言处理领域取得了惊人的成功。然而,Transformer 模型的优化挑战和内在复杂性要求我们向简约的范式转变。在这项研究中,我们介绍了 VanillaNet,这是一种追求设计优雅的神经网络架构。通过避免高深度、捷径以及自注意等复杂操作,VanillaNet 展现出简洁明了却功能强大的特点。每一层都经过精心设计,结构紧凑且直观,训练后去除非线性激活函数以恢复原始架构。VanillaNet 克服了内在复杂性的挑战,非常适合资源受限的环境。原创 2024-07-10 22:01:13 · 388 阅读 · 0 评论 -
【YOLOv10改进- Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
摘要——我们提出了一种硬件高效的卷积神经网络架构,具有类似 RepVGG 的架构。FLOPs 或参数是传统的评估网络效率的指标,但它们对硬件(包括计算能力和内存带宽)不敏感。因此,如何设计一个神经网络以有效利用硬件的计算能力和内存带宽是一个关键问题。本文提出了一种设计硬件感知神经网络的方法。基于这种方法,我们设计了 EfficientRep 系列卷积网络,这些网络对高计算硬件(如 GPU)友好,并应用于 YOLOv6 目标检测框架。原创 2024-07-09 23:07:20 · 585 阅读 · 0 评论 -
【YOLOv10改进- 注意力机制】SENetV2: 用于通道和全局表示的聚合稠密层,结合SE模块和密集层来增强特征表示
卷积神经网络(CNNs)通过提取空间特征彻底改变了图像分类,并在基于视觉的任务中实现了最先进的准确性。提出的Squeeze-and-Excitation网络模块收集输入的通道表示。多层感知器(MLP)从数据中学习全局表示,并在大多数图像分类模型中用于学习图像的提取特征。本文中,我们引入了一种新型的聚合多层感知器,一个多分支密集层,嵌入到Squeeze-and-Excitation残差模块中,旨在超越现有架构的性能。我们的方法结合了Squeeze-and-Excitation网络模块和密集层。原创 2024-07-09 22:50:05 · 413 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】HCF-Net 之 MDCR:多稀释通道细化器模块 ,以不同的稀释率捕捉各种感受野大小的空间特征 | 小目标
摘要——红外小目标检测是计算机视觉中的一项重要任务,涉及识别和定位红外图像中的微小目标,这些目标通常只有几个像素。然而,由于目标体积小且红外图像背景通常复杂,这项任务面临诸多挑战。本文提出了一种深度学习方法HCF-Net,通过多个实用模块显著提升红外小目标检测性能。具体而言,该方法包括并行化的感知补丁注意力(PPA)模块、维度感知选择性融合(DASI)模块和多膨胀通道优化(MDCR)模块。PPA模块使用多分支特征提取策略来捕捉不同尺度和层次的特征信息。DASI模块实现了自适应的通道选择和融合。原创 2024-07-09 22:37:04 · 459 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】HCF-Net 之 DASI: 维度感知选择性整合模块 | 小目标
摘要——红外小目标检测是计算机视觉中的一项重要任务,涉及识别和定位红外图像中的微小目标,这些目标通常只有几个像素。然而,由于目标体积小且红外图像背景通常复杂,这项任务面临诸多挑战。本文提出了一种深度学习方法HCF-Net,通过多个实用模块显著提升红外小目标检测性能。具体而言,该方法包括并行化的感知补丁注意力(PPA)模块、维度感知选择性融合(DASI)模块和多膨胀通道优化(MDCR)模块。PPA模块使用多分支特征提取策略来捕捉不同尺度和层次的特征信息。DASI模块实现了自适应的通道选择和融合。原创 2024-07-09 22:25:01 · 508 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力
先前的大量研究表明,注意力机制在提高深度卷积神经网络(CNN)的性能方面具有巨大潜力。然而,大多数现有方法要么忽略通道和空间维度的建模注意力,要么引入更高的模型复杂性和更重的计算负担。为了缓解这种困境,在本文中,我们提出了一种轻量级且高效的多维协作注意力(MCA),这是一种通过使用三分支架构同时推断通道、高度和宽度维度注意力的新方法,几乎没有额外的开销。原创 2024-07-09 22:05:47 · 812 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】NAM:基于归一化的注意力模块,将权重稀疏惩罚应用于注意力机制中,提高效率性能
识别较不显著的特征是模型压缩的关键。然而,这在革命性的注意力机制中尚未被研究。在这项工作中,我们提出了一种新颖的基于归一化的注意力模块(NAM),该模块抑制了较不显著的权重。它对注意力模块施加了权重稀疏惩罚,从而使其在保留相似性能的同时变得更具计算效率。在Resnet和Mobilenet上与其他三种注意力机制的比较表明,我们的方法可以带来更高的准确性。本文的代码可以在https://github.com/Christian-lyc/NAM公开获取。原创 2024-07-09 21:42:29 · 194 阅读 · 0 评论 -
【YOLOv10改进- Backbone主干】清华大学CloFormer AttnConv :利用共享权重和上下文感知权重增强局部感知,注意力机制与卷积的完美融合
视觉变换器(Vision Transformers,ViTs)已被证明在各种视觉任务中具有高效性。然而,将其缩小到移动设备友好的尺寸会导致性能显著下降。因此,开发轻量级视觉变换器成为了一个重要的研究方向。本文介绍了CloFormer,这是一种利用上下文感知局部增强的轻量级视觉变换器。CloFormer探讨了在传统卷积操作中常用的全局共享权重与在注意力机制中出现的特定于token的上下文感知权重之间的关系,并提出了一种高效且简单的模块来捕获高频局部信息。原创 2024-07-09 21:27:41 · 564 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】LS-YOLO MSFE:新颖的多尺度特征提取模块 | 小目标/遥感
摘要——滑坡是一种广泛且具有毁灭性的自然灾害,对人类生命、安全和自然资产构成严重威胁。研究利用遥感影像进行滑坡精准检测的高效方法具有重要的学术和实际意义。本文提出了一种新颖且有效的滑坡检测模型LS-YOLO,利用遥感影像进行滑坡检测。我们首先构建了一个多尺度滑坡数据集(MSLD),并在数据增强中引入随机种子以增加数据的鲁棒性。考虑到遥感影像中滑坡的多尺度特性,设计了基于高效通道注意力、平均池化和空间可分离卷积的多尺度特征提取模块。为了增加模型的感受野,在解耦头中采用了膨胀卷积。原创 2024-07-08 23:08:05 · 441 阅读 · 0 评论 -
【YOLOv10改进- 卷积Conv】RefConv:重新参数化的重聚焦卷积模块
我们提出了重新参数化再聚焦卷积(Re-parameterized Refocusing Convolution, RefConv)作为常规卷积层的替代方案,这是一种即插即用的模块,可以在不增加推理成本的情况下提高性能。具体来说,对于一个预训练模型,RefConv对从预训练模型继承的基础卷积核应用一个可训练的再聚焦转换,以在参数之间建立连接。例如,深度卷积的RefConv可以将特定通道的卷积核参数与其他卷积核的参数关联起来,即使它们重新聚焦于模型的其他部分,而不仅仅关注于输入特征。原创 2024-07-08 22:58:02 · 622 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】MSFN(Multi-Scale Feed-Forward Network):多尺度前馈网络
摘要——高光谱图像(HSI)去噪对于高光谱数据的有效分析和解释至关重要。然而,同时建模全局和局部特征以增强HSI去噪的研究却很少。在本文中,我们提出了一种混合卷积和注意力网络(HCANet),该网络结合了卷积神经网络(CNN)和Transformers的优势。为了增强全局和局部特征的建模,我们设计了一个卷积和注意力融合模块,旨在捕捉长距离依赖关系和邻域光谱相关性。此外,为了改进多尺度信息聚合,我们设计了一个多尺度前馈网络,通过在不同尺度上提取特征来增强去噪性能。原创 2024-07-08 22:43:31 · 366 阅读 · 0 评论 -
【YOLOv10改进- 特征融合NECK】 AFPN :渐进特征金字塔网络
在目标检测任务中,多尺度特征对于编码具有尺度变化的对象至关重要。采用经典的自顶向下和自底向上特征金字塔网络是提取多尺度特征的常用策略。然而,这些方法存在特征信息的丢失或降级问题,损害了非相邻层次之间融合效果。本文提出了一种渐近特征金字塔网络(AFPN),以支持非相邻层次之间的直接交互。AFPN通过融合两个相邻的低级特征启动,并渐进地将更高级别的特征纳入融合过程。通过这种方式,可以避免非相邻层次之间较大的语义差距。原创 2024-07-08 22:28:21 · 736 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】CoTAttention:上下文转换器注意力
Transformer自注意力机制已经引领了自然语言处理领域的革命,并且最近激发了Transformer风格架构设计在众多计算机视觉任务中取得竞争性结果。然而,大多数现有设计直接在二维特征图上使用自注意力机制,以基于每个空间位置的孤立查询和键对来获取注意力矩阵,但没有充分利用邻近键之间的丰富上下文信息。在这项工作中,我们设计了一种新颖的Transformer风格模块,即Contextual Transformer(CoT)块,用于视觉识别。原创 2024-07-08 22:05:16 · 534 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】STA(Super Token Attention) 超级令牌注意力机制
视觉Transformer在许多视觉任务上展示了卓越的性能。然而,它在浅层捕获局部特征时可能会面临高度冗余的问题。因此,使用了局部自注意力或早期阶段的卷积来减少这种冗余,但这牺牲了捕获长距离依赖的能力。一个挑战随之而来:在神经网络的早期阶段,我们是否能高效且有效地进行全局上下文建模?为解决这一问题,我们从超像素的设计中获得启示,这种设计通过减少图像基元的数量来简化后续处理,并在视觉Transformer中引入了超级令牌。原创 2024-07-08 21:51:27 · 285 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】Non-Local:基于非局部均值去噪滤波的自注意力模型
卷积和循环神经网络中的操作都是一次处理一个局部邻域,在这篇文章中,作者提出了一个非局部的操作来作为捕获远程依赖的通用模块。受计算机视觉中经典的非局部均值方法启发,我们的非局部操作计算某一位置的响应为所有位置特征的加权和。而且,这个模块可以插入到许多计算机视觉网络架构中去。原创 2024-07-08 21:34:37 · 283 阅读 · 0 评论 -
【YOLOv10改进 - 卷积Conv】DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
许多当前的研究直接采用多速率深度扩张卷积,以同时从一个输入特征图中捕获多尺度上下文信息,从而提高实时语义分割的特征提取效率。然而,由于不合理的结构和超参数,这种设计可能导致难以获取多尺度上下文信息。为了降低获取多尺度上下文信息的难度,我们提出了一种高效的多尺度特征提取方法,将原来的单步方法分解为两个步骤:区域残差化-语义残差化。在这种方法中,多速率深度扩张卷积在特征提取中扮演了一个简单的角色:在第二步中基于第一步提供的每个简明区域形式的特征图,执行具有一个期望感受野的简单基于语义的形态滤波,以提高其效率。原创 2024-07-07 15:56:58 · 775 阅读 · 0 评论 -
【YOLOv10改进 -注意力机制】Mamba之MLLAttention :基于Mamba和线性注意力Transformer的模型
Mamba是一种具有线性计算复杂度的有效状态空间模型。它最近在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力Transformer共享令人惊讶的相似性,而线性注意力Transformer在实践中通常不如传统Transformer。通过探索高效的Mamba和表现欠佳的线性注意力Transformer之间的相似性和差异,我们提供了全面的分析,揭示了Mamba成功背后的关键因素。具体来说,我们在统一的公式下重新定义了选择性状态空间模型和线性注意力原创 2024-07-07 14:59:06 · 1276 阅读 · 0 评论 -
【YOLOv10改进- 特征融合NECK】Slim-neck:目标检测新范式,既轻量又涨点
目标检测是计算机视觉中的一项重要下游任务。对于车载边缘计算平台来说,巨大的模型难以满足实时检测的要求,而由大量深度可分离卷积层构建的轻量化模型无法达到足够的准确性。我们引入了一种新的轻量级卷积技术,GSConv,以减轻模型的重量但保持准确性。GSConv 在模型的准确性和速度之间实现了出色的平衡。我们还提供了一种设计范式,称为 slim-neck,以实现检测器更高的计算成本效益。我们的方法在超过二十组比较实验中得到了稳健验证。原创 2024-07-06 23:03:15 · 489 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
视觉Transformer由于其强大的模型能力,已经展示了巨大的成功。然而,其显著的性能伴随着高计算成本,这使得它们不适合实时应用。在本文中,我们提出了一系列高速视觉Transformer,命名为EfficientViT。我们发现现有Transformer模型的速度通常受限于内存效率低的操作,尤其是MHSA中的张量重塑和元素级函数。因此,我们设计了一个新的构建块,采用三明治布局,即在高效的FFN层之间使用单个内存绑定的MHSA,以提高内存效率同时增强通道通信。原创 2024-07-06 22:50:51 · 530 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】GAM(Global Attention Mechanism):全局注意力机制,减少信息损失并放大全局维度交互特征
为了提高各种计算机视觉任务的性能,研究了多种注意力机制。然而,现有方法忽视了保留通道和空间两个方面信息的重要性,以增强跨维度的交互。因此,我们提出了一种全局注意力机制,通过减少信息损失和放大全局交互表示来提升深度神经网络的性能。我们引入了带有多层感知器的3D排列用于通道注意力,同时结合了卷积空间注意力子模块。在CIFAR-100和ImageNet-1K上的图像分类任务评估中,表明我们的方法在ResNet和轻量级MobileNet上稳定地优于几种最新的注意力机制。原创 2024-07-06 22:41:34 · 776 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】ECA(Efficient Channel Attention):高效通道注意 模块,降低参数量
最近,通道注意力机制在提升深度卷积神经网络(CNNs)性能方面展现了巨大潜力。然而,大多数现有方法致力于开发更复杂的注意力模块以获得更好的性能,这不可避免地增加了模型的复杂性。为了克服性能与复杂性权衡的矛盾,本文提出了一种高效通道注意力(ECA)模块,该模块只涉及少量参数,同时带来了显著的性能提升。通过剖析SENet中的通道注意力模块,我们实验证明,避免维度缩减对于学习通道注意力非常重要,适当的跨通道交互可以在显著降低模型复杂性的同时保持性能。原创 2024-07-06 22:14:50 · 627 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】LSKNet(Large Selective Kernel Network ):空间选择注意力
近期在遥感目标检测的研究中,主要集中于提高定向边界框的表示能力,但却忽略了遥感场景中独有的先验知识。这类先验知识是有用的,因为在没有参考足够长范围上下文的情况下,微小的遥感目标可能会被错误地检测到,而不同类型的对象所需的长范围上下文可能会有所不同。在本文中,我们考虑到了这些先验,并提出了大型选择性核网络(LSKNet)。LSKNet能够动态调整其大的空间接收场,以更好地模拟遥感场景中各种对象的范围上下文。据我们所知,这是首次在遥感目标检测领域探索大型和选择性核机制。原创 2024-07-06 21:46:58 · 670 阅读 · 0 评论 -
【YOLOv10改进-卷积Conv】 SAConv(Switchable Atrous Convolution):可切换的空洞卷积
许多现代目标检测器通过采用二次观察和思考机制展示了卓越的性能。在本文中,我们在目标检测的主干设计中探索了这一机制。在宏观层面上,我们提出了递归特征金字塔(Recursive Feature Pyramid),该金字塔将特征金字塔网络(Feature Pyramid Networks)的额外反馈连接融入到底层的自下而上主干层中。在微观层面上,我们提出了可切换空洞卷积(Switchable Atrous Convolution),该卷积通过不同的空洞率卷积特征,并使用切换函数汇集结果。原创 2024-07-06 11:31:13 · 562 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】MLCA(Mixed local channel attention):混合局部通道注意力
本项目介绍了一种轻量级的 Mixed Local Channel Attention (MLCA) 模块,该模块同时考虑通道信息和空间信息,并结合局部信息和全局信息以提高网络的表达效果。基于该模块,我们提出了 MobileNet-Attention-YOLO(MAY) 算法,用于比较各种注意力模块的性能。在 Pascal VOC 和 SMID 数据集上,MLCA 相对于其他注意力技术更好地平衡了模型表示效果、性能和复杂度。原创 2024-07-06 10:18:24 · 970 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】CPCA(Channel prior convolutional attention)中的通道注意力,增强特征表征能力
医学图像通常展示出低对比度和显著的器官形状变化等特征。现有注意力机制通常不足以适应性地提升医学成像的分割性能。本文提出了一种有效的通道优先卷积注意力(CPCA)方法,支持在通道和空间维度上动态分配注意力权重。通过采用多尺度深度卷积模块,有效地提取空间关系同时保留通道优先。CPCA具有关注信息丰富通道和重要区域的能力。基于CPCA,我们提出了一个用于医学图像分割的网络,称为CPCANet。CPCANet在两个公开可用的数据集上进行了验证。原创 2024-07-06 10:00:47 · 655 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】DAT(Deformable Attention):可变形注意力
Transformer最近在各种视觉任务中表现优异。全局的感知域使Transformer模型比CNN具有更强的表示能力。然而,简单地扩大感受野也引起了一些问题。一方面,使用较为密集的注意力,例如在ViT中,会导致过多的内存和计算成本,并且功能可能会受到超出兴趣区域的无关部分的影响。另一方面,在PVT或Swin Transformer中采用的较为稀疏的注意机制是与数据无关的,这可能会限制对于长距离关系的建模能力。原创 2024-07-06 09:27:06 · 941 阅读 · 0 评论 -
【YOLOv10改进-卷积Conv】 ODConv(Omni-Dimensional Dynamic Convolution):全维度动态卷积
在现代卷积神经网络(CNN)中,每个卷积层中学习单个静态卷积核是常见的训练范式。然而,最近在动态卷积的研究中表明,通过学习 n 个卷积核的线性组合,并且这些卷积核的权重取决于它们的输入相关注意力,可以显著提高轻量级 CNN 的准确性,同时保持高效的推理。但是,我们观察到,现有的工作通过一个维度(关于卷积核数量)赋予卷积核动态属性,但另外三个维度(关于每个卷积核的空间大小、输入通道数和输出通道数)被忽略了。原创 2024-07-05 10:39:48 · 533 阅读 · 0 评论 -
【YOLOv10改进 - 注意力机制】 MHSA:多头自注意力(Multi-Head Self-Attention)
我们介绍了BoTNet,这是一个概念简单但功能强大的骨干架构,将自注意力引入多个计算机视觉任务,包括图像分类、物体检测和实例分割。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积,而不进行其他更改,我们的方法在实例分割和物体检测任务上显著提升了基线性能,同时减少了参数,延迟方面的开销也极小。通过设计BoTNet,我们还指出了带自注意力的ResNet瓶颈块可以视为Transformer块。原创 2024-07-05 09:56:30 · 1007 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】HAT(Hybrid Attention Transformer,)混合注意力机制
基于Transformer的方法在低级视觉任务中表现出色,例如图像超分辨率。然而,通过归因分析,我们发现这些网络只能利用输入信息的有限空间范围。这表明Transformer在现有网络中的潜力尚未完全发挥。为了激活更多的输入像素以获得更好的重建效果,我们提出了一种新颖的混合注意力Transformer(Hybrid Attention Transformer, HAT)。它结合了通道注意力和基于窗口的自注意力机制,从而利用了它们能够利用全局统计信息和强大的局部拟合能力的互补优势。原创 2024-07-04 23:12:12 · 688 阅读 · 0 评论 -
【YOLOv10改进- 特征融合NECK】BiFPN:加权双向特征金字塔网络
在计算机视觉领域,模型效率的重要性日益增加。在本文中,我们系统地研究了用于目标检测的神经网络架构设计选择,并提出了几个关键优化以提高效率。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它允许轻松快速地进行多尺度特征融合;其次,我们提出了一种复合缩放方法,该方法统一缩放了所有主干网络、特征网络以及框/类别预测网络的分辨率、深度和宽度。基于这些优化和更好的主干网络,我们开发了一种新的目标检测器系列,称为EfficientDet,它在广泛的资源约束条件下始终比先前的技术实现了更好的效率。原创 2024-07-04 22:46:17 · 844 阅读 · 0 评论 -
【YOLOv10改进-卷积Conv】RFAConv:感受野注意力卷积,创新空间注意力
空间注意力已被广泛用于提升卷积神经网络的性能。然而,它存在一定的局限性。在本文中,我们提出了一个关于空间注意力有效性的新视角,即空间注意力机制本质上是解决卷积核参数共享的问题。然而,由空间注意力生成的注意力图中包含的信息对于大尺寸卷积核来说并不充分。因此,我们提出了一种名为感受野注意力(Receptive-Field Attention,简称RFA)的新型注意力机制。原创 2024-07-04 22:07:29 · 543 阅读 · 0 评论 -
【YOLOv10改进-注意力机制】D-LKA Attention:可变形大核注意力
医学图像分割在Transformer模型的应用下取得了显著进步,这些模型在捕捉远距离上下文和全局语境信息方面表现出色。然而,这些模型的计算需求随着token数量的平方增加,限制了其深度和分辨率能力。大多数现有方法以逐片处理三维体积图像数据(称为伪3D),这忽略了重要的片间信息,从而降低了模型的整体性能。为了解决这些挑战,我们引入了可变形大核注意力(D-LKA Attention)的概念,这是一种简化的注意力机制,采用大卷积核以充分利用体积上下文信息。该机制在类似于自注意力的感受野内运行,同时避免了计算开销。原创 2024-07-04 21:41:17 · 522 阅读 · 0 评论 -
【YOLOv10改进-损失函数】PIoU(Powerful-IoU):使用非单调聚焦机制更直接、更快的边界框回归损失
边界框回归(BBR)是目标检测中的核心任务之一,BBR损失函数显著影响其性能。然而,我们观察到现有基于IoU的损失函数存在不合理的惩罚因子,导致锚框在回归过程中扩展,并且显著减慢了收敛速度。为解决这一问题,我们深入分析了锚框扩大的原因。为此,我们提出了一种Powerful-IoU(PIoU)损失函数,结合了目标尺寸自适应惩罚因子和基于锚框质量的梯度调整函数。PIoU损失引导锚框沿着高效路径进行回归,比现有基于IoU的损失函数实现了更快的收敛。原创 2024-07-04 20:45:15 · 1968 阅读 · 0 评论 -
【YOLOv10改进-损失函数】Shape-IoU:考虑边框形状与尺度的指标
作为检测器定位分支的重要组成,边框回归损失在目标检测任务中发挥巨大作用。现有的边框回归方法,通常考虑了GT框与预测框之间的几何关系,通过使用边框间的相对位置与相对形状等计算损失,而忽略了边框其自身的形状与尺度等固有属性对边框回归的影响。为了弥补现有研究的不足,本文提出聚焦边框自身形状与尺度的边框回归方法。首先我们对边框回归特性进行分析,得出边框自身形状因素与尺度因素会对回归结果产生影响。原创 2024-07-04 17:22:03 · 737 阅读 · 0 评论 -
【YOLOv10改进- Backbone主干】BiFormer: 通过双向路由注意力构建高效金字塔网络架构 | 小目标
作为视觉Transformer的核心构建模块,注意力机制是捕捉长距离依赖关系的强大工具。然而,这种强大的功能也伴随着巨大的计算负担和大量的内存占用,因为需要计算所有空间位置上的成对标记交互。一系列研究尝试通过引入手工制作且内容无关的稀疏性来缓解这一问题,例如将注意力操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法不同,我们提出了一种新颖的动态稀疏注意力通过双层路由,以实现具有内容感知能力的更灵活的计算分配。原创 2024-07-04 17:06:22 · 560 阅读 · 0 评论 -
【YOLOv10改进 - 卷积Conv】SPConv:去除特征图中的冗余,大幅减少参数数量 | 小目标
许多有效的解决方案已被提出以减少推理加速中模型的冗余。然而,常见的方法大多集中在消除不重要的滤波器或构建高效的操作上,而忽视了特征图中的模式冗余。我们揭示了在一个层内,许多特征图分享相似但不完全相同的模式。然而,确定具有类似模式的特征是否冗余或包含重要细节是困难的。因此,我们提出了一种基于分割的卷积操作,即SPConv,来容忍具有相似模式但需要较少计算的特征。原创 2024-07-04 15:40:24 · 459 阅读 · 0 评论 -
【YOLOv10改进】EVC(Explicit Visual Center): 中心化特征金字塔模块 | 小目标
摘要 - 视觉特征金字塔在各种应用中展示了其在效率和有效性上的优势。然而,现有方法过分集中于层间特征交互,却忽略了同层特征调控,这在实践中被证明是有益的。尽管一些方法尝试借助注意力机制或视觉变换器(Vision Transformer)学习一个紧凑的同层特征表示,但它们忽略了对于密集预测任务而言重要的被遗漏的角落区域。为了解决这个问题,在本文中,我们提出了一个用于目标检测的集中化特征金字塔(CFP),它基于全局显式的集中特征调控。原创 2024-07-04 09:37:52 · 722 阅读 · 0 评论 -
【YOLOv10改进 - 卷积Conv】DCNv4: 可变形卷积,动态与稀疏操作高效融合的创新算子
我们介绍了可变形卷积 v4(DCNv4),这是一种设计用于广泛视觉应用的高效和有效的算子。DCNv4通过两个关键增强来解决其前身 DCNv3 的限制:1. 在空间聚合中移除了softmax标准化,以增强其动态特性和表达能力;2. 优化内存访问,减少冗余操作以加快速度。这些改进使得DCNv4的收敛速度显著更快,处理速度大幅提升,前向速度比DCNv3提高了三倍以上。DCNv4在图像分类、实例和语义分割等各种任务中表现出色,特别是在图像生成领域。原创 2024-07-04 09:34:46 · 1218 阅读 · 0 评论