自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 YOLOv11改进 | head改进篇 | YOLOv11引入SAD尺寸感知解码器模块,适用于目标检查,图像分割,图像增强(全网独家创新)来自AAAI2025顶会

官方论文地址:论文地址点击即可跳转官方代码地址:代码地址点击即可跳转到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv8v10v11改进有效涨点专栏,本专栏后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,本专栏会持续更新500+创新改进点,大家尽早关注有效涨点专栏,带着大家快速高效发论文!如果大家觉得本文能帮助到你了,订阅本专栏,关注后续更多的更新~

2024-12-27 21:17:14 290

原创 YOLOv11改进 | 特征融合改进篇 | YOLOv11引入CDFA对比度特征聚合模块,适用于目标检查,图像分割,图像增强(全网独家创新)来自AAAI2025顶会

医学图像分割在临床决策、治疗规划和疾病追踪中发挥着重要作用。然而,它仍面临两大挑战。一方面,医学图像中前景和背景之间常常存在“软边界”,且光照条件差、对比度低进一步降低了图像中前景和背景的区分度。另一方面,医学图像中普遍存在共生现象,学习这些特征会对模型的判断产生误导。为解决这些挑战,我们提出了一个名为对比驱动医学图像分割(ConDSeg)的通用框架。

2024-12-27 20:53:14 572

原创 YOLOv11一文弄懂 | YOLOv11网络结构解读 、yolov11.yaml配置文件详细解读与说明、模型训练参数详细解析 | 通俗易懂!入门必看系列!

YOLOv11是由Ultralytics公司开发的新一代目标检测算法,它在之前YOLO版本的基础上进行了显著的架构和训练方法改进。整合了改进的模型结构设计增强的特征提取技术和优化的训练方法。真正让YOLO11脱颖而出的是它令人印象深刻的速度准确性和效率的结合,使其成为Ultralytics迄今为止创造的最强大的型号之一。通过改进设计,YOLO11提供了更好的特征提取,这是从图像中识别重要模式和细节的过程,即使在具有挑战性的场景中,也可以更准确地捕捉复杂的方面。

2024-12-22 18:04:06 15264 6

原创 YOLOv11改进 | 检测头改进篇 | 利用ASFF改进YOLOv11检测头,自适应空间特征融合模块,在所有的目标检测上均有大幅度的涨点效果

摘要:金字塔形特征表示是解决对象检测中比例变化挑战的常见做法。然而,不同特征尺度之间的不一致是基于特征金字塔的单发检测器的主要限制。在这项工作中,我们提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合 (ASFF)。它学习了在空间上过滤冲突信息以抑制不一致的方法,从而提高了特征的尺度不变性,并引入了几乎免费的推理开销。

2024-12-22 16:29:44 410 2

原创 YOLOv10改进 | 检测头改进篇 | 利用ASFF改进YOLOv10检测头,自适应空间特征融合模块,在所有的目标检测上均有大幅度的涨点效果

摘要:金字塔形特征表示是解决对象检测中比例变化挑战的常见做法。然而,不同特征尺度之间的不一致是基于特征金字塔的单发检测器的主要限制。在这项工作中,我们提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合 (ASFF)。它学习了在空间上过滤冲突信息以抑制不一致的方法,从而提高了特征的尺度不变性,并引入了几乎免费的推理开销。

2024-12-22 15:39:45 319

原创 YOLOv11改进 | 注意力改进篇 | YOLOv11引入Bi-level Routing Attention --简称BRAttention注意力模块(来自CVPR2023)

论文地址点击此处即可跳转代码地址点击此处即可跳转摘要:作为 Vision Transformer 的核心构建块,注意力是捕获长期依赖性的强大工具。然而,这种能力是有代价的:它会产生巨大的计算负担和沉重的内存占用,因为要计算所有空间位置的成对令牌交互。一系列作品试图通过将手工制作和内容无关的稀疏性引入 attention 来缓解这个问题,例如将 attention 操作限制在局部窗口、轴向条纹或扩张窗口内。与这些方法相反,我们提出了一种通过双层路由的新型动态稀疏注意力,以实现具有内容感知的更灵活的计算分配。

2024-11-18 17:05:45 782

原创 YOLOv11改进 | Conv改进篇 | YOLOv11引入DynamicConv替换普通Conv卷积下采样和C3k2_DynamicConv替换C3k2(来自CVPR2024)

论文地址点击此处即可跳转代码地址点击此处即可跳转摘要:大规模视觉预训练显著提高了大型视觉模型的性能。然而,我们观察到低 FLOPs 陷阱,即现有的低 FLOPs 模型无法从大规模预训练中受益。在本文中,我们介绍了一种称为 ParameterNet 的新设计原理,旨在增加大规模视觉预训练模型中的参数数量,同时最大限度地减少 FLOPs 的增加。我们利用DynamicConv动态卷积将其他参数合并到网络中,FLOP 仅略有增加。ParameterNet 方法允许低 FLOPs 网络利用大规模视觉预训练。

2024-11-18 16:21:57 328

原创 YOLOv8v10改进 | 独家Neck创新篇 | YOLOv8v10引入LGAG大核分组注意门控模块,允许相关特征的激活和抑制不相关特征(来自CVPR2024顶会,涨点效果明显)

摘要:高效且有效的解码机制在医学图像分割中至关重要,尤其是在计算资源有限的场景中。但是,这些解码机制通常伴随着高昂的计算成本。为了解决这个问题,我们推出了 EMCAD,这是一种新的高效多尺度卷积注意力解码器,旨在优化性能和计算效率。EMCAD 利用独特的多尺度深度卷积块,通过多尺度卷积显著增强特征图。EMCAD 还采用了通道、空间和分组(大核)门控注意力机制,这些机制在捕获复杂的空间关系时非常有效,同时专注于突出区域。

2024-09-15 14:14:09 717

原创 YOLOv8v10改进 | 独家创新篇 | YOLOv8v10引入EMCAM多尺度卷积注意力特征融合模块,增强保留上下特征信息(来自CVPR2024顶会,助力于医学图像分割任务,涨点推荐)

高效且有效的解码机制在医学图像分割中至关重要,尤其是在计算资源有限的场景中。但是,这些解码机制通常伴随着高昂的计算成本。为了解决这个问题,我们推出了 EMCAD,这是一种新的高效多尺度卷积注意力解码器,旨在优化性能和计算效率。EMCAD 利用独特的多尺度深度卷积块,通过多尺度卷积显著增强特征图。EMCAD 还采用了通道、空间和分组(大核)门控注意力机制,这些机制在捕获复杂的空间关系时非常有效,同时专注于突出区域。

2024-09-15 13:46:47 973

原创 YOLOv8v10改进 | 独家创新篇 | CVPR 2024顶会 | YOLOv10引入HRAMi 多尺度特征融合模块

尽管最近的许多工作在图像修复 (IR) 领域取得了进展,但它们经常受到参数过多的影响。另一个问题是,大多数基于 Transformer 的 IR 方法只关注局部或全局特征,导致感受野有限或参数不足问题。为了解决这些问题,我们提出了一种轻量级 IR 网络,即 Reciprocal Attention Mixing Transformer (RAMiT)。它采用了我们提出的维度倒易注意力混合 Transformer (D-RAMiT) 块,该块与不同数量的多头并行计算二维(空间和通道)自我注意。

2024-09-14 22:14:21 784

原创 YOLOv8v10改进 | 独家创新篇 | YOLOv8v10引入xLSTM通过将卷积层的局部特征提取优势与 xLSTM 的长距离依赖性捕获能力相结合(助力于医学图像分割任务)

摘要:卷积神经网络 (CNN) 和视觉转换器 (ViT) 在生物医学图像分割中一直发挥着关键作用,但它们管理长期依赖关系的能力仍然受到固有局部性和计算开销的限制。为了克服这些挑战,在本技术报告中,我们首先提出了 xLSTM-UNet,这是一种 UNet 结构化深度学习神经网络,它利用 Vision-LSTM (xLSTM) 作为其医学图像分割的主干。

2024-09-14 15:08:47 442

原创 YOLOv8v10改进 | 独家创新篇 | ICML 2024顶会 | YOLOv10利用ICB交互式卷积和ASB自适应频谱模块改进C2f增强特征表示

摘要:时间序列数据以其固有的长程和短程依赖关系为特征,对分析应用程序构成了独特的挑战。虽然基于 Transformer 的模型擅长捕获长距离依赖关系,但它们在噪声敏感性、计算效率和较小数据集的过拟合方面面临限制。作为回应,我们引入了一种新的时间序列轻量级自适应网络 (TSLANet),作为不同时间序列任务的通用卷积模型。具体来说,我们提出了一种自适应频谱模块,利用傅里叶分析来增强特征表示并捕获长期和短期交互,同时通过自适应阈值减轻噪声。

2024-09-13 18:29:41 459

原创 YOLOv8v10改进 | 细节涨点篇 | SCI一区2023 | YOLOv10引入HWD小波下采样模块,而不会显著增加计算开销(在小目标分割任务上效果显著)

摘要:卷积神经网络中普遍使用最大池化或跨步卷积等下采样操作(CNN)聚合局部特征,扩大感受野,并最小化计算开销。然而,对于语义分割任务,在局部邻域上池化特征可能会导致重要空间信息的丢失,这有利于逐像素预测。为了解决这个问题,我们引入了一种简单而有效的池化操作,称为基于 Haar 小波的下采样(HWD)模块。该模块可以轻松集成到 CNN 中,以增强语义分割模型的性能。HWD的核心思想是应用Haar小波变换来降低特征图的空间分辨率,同时保留尽可能多的信息。

2024-09-13 17:45:02 475

原创 YOLOv8v10改进 | Neck改进篇 | YOLOv10引入DAMO-YOLO中的RepGFPN改进,助力于通用型、轻量级、高效型目标检测

在本文中,我们提出了一种快速准确的对象检测方法,称为 DAMO-YOLO,它实现了比最先进的 YOLO 系列更高的性能。DAMO-YOLO 是从 YOLO 扩展而来的,具有一些新技术,包括神经架构搜索 (NAS)、高效的重新参数化广义 FPN (RepGFPN)、具有 AlignedOTA 标签分配的轻量级头和蒸馏增强。特别地,我们使用了 MAE-NAS,一种以最大熵原理为指导的方法,在低延迟和高性能的约束下搜索我们的检测骨干,生成具有空间金字塔池化和焦点模块的类 ResNet / CSP 结构。

2024-09-13 15:31:07 726

原创 YOLOv8v10改进 | Conv篇 | YOLOv10引入RCS-YOLO中的RCSOSA以提取更丰富的信息并减少时间消耗(助力于脑肿瘤目标检测任务)

凭借速度和准确性之间的出色平衡,尖端的 YOLO 框架已成为最有效的对象检测算法之一。然而,在脑肿瘤检测中使用 YOLO 网络的性能很少得到研究。我们提出了一种新颖的 YOLO 架构,具有基于通道随机播放的重新参数化卷积 (RCS-YOLO)。我们提出了 RCS 和 OneShot Aggregation of RCS (RCS-OSA),它们将特征级联和计算效率联系起来,以提取更丰富的信息并减少时间消耗。

2024-09-13 14:58:40 510

原创 YOLOv8v10改进 | 独家创新篇 | YOLOv10利用HLFD高低频分解块改进C2f_HLFD增强特征细节,减少特征丢失(助力于图像增强,图像去噪,目标检查,图像分割等任务)CVPR 2024

摘要:在实际场景中,由于一系列图像退化,获得高质量、清晰内容的照片具有挑战性。虽然在合成高质量图像方面取得了重大进展,但以前的图像恢复和增强方法往往忽视了不同退化的特性。他们应用相同的结构来解决各种类型的退化问题,导致修复结果不太理想。受高/低频信息适用于不同降级的概念的启发,我们引入了 HLNet,这是一种基于高低频分解的包围图像恢复和增强方法。具体来说,我们使用两个模块进行特征提取:共享权重模块和非共享权重模块。在共享权重模块中,我们使用 SCConv 从不同的降级中提取共同特征。

2024-09-12 22:35:27 649

原创 YOLOv10改进 | 独家创新篇 | YOLOv10利用MogaBlock二次创新C2f减少冗余信息,增强特征表达(在图像分类、目标检测等任务中表现出色)来自ICLR 2024

摘要:通过尽可能全局地将内核置于上下文中,现代卷积网络在计算机视觉任务中显示出巨大的潜力。然而,深度神经网络 (DNN) 中多阶博弈论交互的最新进展揭示了现代卷积网络的表示瓶颈,其中表达交互没有随着内核大小的增加而得到有效编码。为了应对这一挑战,我们提出了一个新的现代 ConvNet 系列,称为 MogaNet,用于在基于 ConvNet 的纯模型中进行判别性视觉表示学习,并具有良好的复杂性-性能权衡。

2024-09-12 21:48:31 496

原创 YOLOv10改进 | Conv篇 | YOLOv10利用DualConv轻量级双卷积模块二次创新C2f降低计算成本和参数数量(提高目标检测速度)

CNN 架构通常对内存和计算要求很高,这使得它们对于硬件资源有限的嵌入式系统来说是不可行的。我们提出了双卷积核 (DualConv) 来构建轻量级深度神经网络。DualConv 结合了 3×3 和 1×1 个卷积核,可以同时处理相同的输入特征图通道,并利用组卷积技术来高效排列卷积滤波器。DualConv 可用于任何 CNN 模型,例如用于图像分类的 VGG-16 和 ResNet-50、用于对象检测的 YOLO 和 R-CNN 或用于语义分割的 FCN。

2024-09-11 20:33:42 529

原创 YOLOv10改进 | 注意力改进篇 | YOLOv10引入MLLA曼巴式线性注意力(助力于图像分类、高分辨率任务)

摘要:Mamba 是一种具有线性计算复杂性的有效状态空间模型。它最近在处理各种视觉任务中的高分辨率输入方面表现出令人印象深刻的效率。在本文中,我们揭示了强大的 Mamba 模型与线性注意力 Transformer 有着惊人的相似之处,后者在实践中通常表现不佳于传统的 Transformer。通过探索有效的 Mamba 和低于标准的线性注意力 Transformer 之间的相似之处和差异,我们提供了全面的分析,以揭开 Mamba 成功背后的关键因素的神秘面纱。

2024-09-11 19:04:02 479

原创 YOLOv10改进 | 注意力篇 | YOLOv10上添加CAA注意力捕捉长距离的上下文信息(助力目标检测任务涨点)

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv10改进有效涨点专栏,本专栏后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,本专栏会持续更新300+创新改进点,大家尽早关注有效涨点专栏,带着大家快速高效发论文!如果大家觉得本文能帮助到你了,订阅本专栏,关注后续更多的更新~

2024-09-10 21:18:40 494

原创 YOLOv10改进 | 主干替换篇 | YOLOv10 更换主干PKINet(助力于遥感目标检测任务极限涨点--CVPR 2024)

摘要:遥感影像 (RSI) 中的对象检测通常面临一些日益增长的挑战,包括对象尺度的巨大变化和不同的环境。以前的方法试图通过大核卷积或扩张卷积来扩大主干的空间感受野来应对这些挑战。但是,前者通常会引入相当大的背景噪声,而后者则可能会生成过于稀疏的特征表示。在本文中,我们介绍了 Poly Kernel Inception Network (PKINet) 来处理上述挑战。PKINet 采用无膨胀的多尺度卷积核来提取不同尺度的目标特征并捕获局部上下文。

2024-09-10 18:32:14 594

原创 YOLOv10改进 | 细节涨点篇 | YOLOv10引入SRFD 浅层下采样和DRFD深层下采样,提高特征稳健性(在图像分类、目标检测和语义分割等任务上高效涨点)-- 来自TGRS 2023

摘要:由于分辨率较低、物体较小且特征较少,遥感 (RS) 图像给计算机视觉带来了独特的挑战。主流骨干网络对传统视觉任务显示出可喜的成果。但是,它们使用卷积来降低特征图维度,这可能会导致 RS 图像中小对象的信息丢失并降低性能。为了解决这个问题,我们提出了一个名为 Robust Feature Downsampling (RFD) 的新的通用下采样模块。RFD 融合了通过不同下采样技术提取的多个特征图,从而创建具有互补特征集的更强大的特征图。

2024-09-10 16:54:46 1046

原创 YOLOv8v10有效涨点改进专栏目录 | 本专栏持续更新300+篇内容 | 包含各种卷积、主干网络、各种注意力机制、检测头、损失函数、二次创新模块、独家创新等几百种创新点改进

YOLOv8v10新改进有效涨点专栏!本专栏会持续更新300+创新改进点,目前限时特价99.9,仅限前66名,之后恢复原价!大家尽早关注有效涨点专栏,带着大家快速高效发论文!如果大家觉得本文能帮助到你了,订阅本专栏,关注后续更多的更新~同时有交流群方便大家有不懂的可以随时进行沟通交流及答疑。

2024-09-10 12:23:13 1166 2

原创 YOLOv10改进 | 注意力篇 | 手把手教你在YOLOv10上添加LSKAttention大核注意力机制(助力小目标检测极限涨点)

摘要:带有大型内核注意力 (LKA) 模块的视觉注意力网络 (VAN) 已被证明在一系列基于视觉的任务中提供了卓越的性能,超过了视觉转换器 (ViTs)。然而,随着卷积核大小的增加,这些 LKA 模块中的深度卷积层会导致计算和内存占用量呈二次方增加。为了缓解这些问题,并在 VAN 的注意力模块中使用非常大的卷积内核,我们提出了一个大型可分离内核注意力模块系列,称为 LSKA。LSKA 将深度卷积层的 2D 卷积核分解为级联的水平和垂直 1-D 核。

2024-09-09 22:19:27 679

原创 YOLOv10改进 | 注意力篇 | 手把手教你在YOLOv10上缝合高效多尺度注意力(EMA)模块(图像分类和目标检测等任务通用)ICASSP2023中稿论文

摘要:在各种计算机视觉任务中说明了通道或空间注意力机制在产生更可辨别的特征表示方面的显着有效性。然而,使用通道降维对跨通道关系进行建模可能会在提取深度视觉表示时带来副作用。该文提出了一种新的高效多尺度注意力 (EMA) 模块。专注于保留每个通道的信息并减少计算开销,我们将部分通道重塑为批处理维度,并将通道维度分组为多个子特征,这使得空间语义特征在每个特征组内分布均匀。具体来说,除了对全局信息进行编码以重新校准每个并行分支中的通道权重外,两个并行分支的输出特征通过跨维度交互进一步聚合,以捕获像素级成对关系。

2024-09-09 21:44:37 598

原创 YOLOv10改进 | 主干替换篇 | YOLOv10 更换主干Backbone之MobileNetV4(轻量化主干网络结构-2024年最新的移动端网络)

我们推出了最新一代的 MobileNet,称为 MobileNetV4 (MNv4),具有适用于移动设备的通用高效架构设计。我们的核心是引入了通用反向瓶颈 (UIB) 搜索块,这是一种统一且灵活的结构,它融合了反向瓶颈 (IB)、ConvNext、前馈网络 (FFN) 和新颖的 Extra Depthwise (ExtraDW) 变体。除了 UIB,我们还推出了 Mobile MQA,这是一个为移动加速器量身定制的注意力块,可提供 39% 的显著加速。

2024-09-09 16:52:20 755

原创 YOLOv10改进 | 主干替换篇 | YOLOv10 更换主干Backbone之MobileNetV3(轻量化主干网络结构--在移动分类、检测和分割任务上的表现很好,快拿去跑实验吧)

我们提出了基于互补搜索技术以及新颖架构设计组合的下一代 MobileNets。MobileNetV3 通过硬件感知网络架构搜索 (NAS) 与 NetAdapt 算法相结合,针对手机 CPU 进行调优,然后通过新颖的架构进步进行改进。本文开始探索自动搜索算法和网络设计如何协同工作,以利用互补方法提高整体技术水平。通过此过程,我们创建了两个新的发布 MobileNet 模型:MobileNetV3-Large 和 MobileNetV3-Small,它们针对高资源和低资源用例。

2024-09-09 16:04:38 469

原创 YOLOv10改进 | 主干替换篇 | YOLOv10 更换主干Backbone之MobileNetV2(轻量化主干网络结构--高效轻量移动模型)

在本文中,我们介绍了一种新的移动架构 MobileNetV2,它提高了移动模型在多个任务和基准测试以及各种不同模型大小的最先进的性能。我们还描述了在我们称为 SSDLite 的新框架中将这些移动模型应用于对象检测的有效方法。此外,我们还演示了如何通过简化的 DeepLabv3 构建移动语义分割模型,我们称之为 Mobile DeepLabv3。基于倒置残差结构,其中快捷方式连接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤特征作为非线性的来源。

2024-09-09 15:30:56 540

原创 YOLOv10改进 | 主干替换篇 | YOLOv10 更换主干Backbone之MobileNetV1(轻量化主干网络结构)

摘要:我们提出了一类用于移动和嵌入式视觉应用的高效模型,称为 MobileNets。MobileNets 基于一种简化的架构,该架构使用深度可分离卷积来构建轻量级深度神经网络。我们介绍了两个简单的全局超参数,它们可以在延迟和准确性之间进行有效权衡。这些超参数允许模型构建者根据问题的约束为其应用程序选择大小合适的模型。我们提出了关于资源和准确性权衡的广泛实验,并显示出与 ImageNet 分类的其他流行模型相比的强大性能。

2024-09-09 15:12:57 243

原创 YOLOv8v10改进 | 最全损失函数改进篇 | SIoU 、WIoU、GIoU、DIoU、EIOU、CIoU, InnerIoU、InnerSIoU、InnerWIoU、FocusIoU等损失函数

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv10改进有效涨点专栏,本专栏后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,本专栏会持续更新300+创新改进点,大家尽早关注有效涨点专栏,带着大家快速高效发论文!如果大家觉得本文能帮助到你了,订阅本专栏,关注后续更多的更新~

2024-09-09 12:16:30 668

原创 YOLOv10改进 | Neck篇 | YOLOv10引入ASF-YOLO中的SSFF、TFE和CPAM三个模块用于医学图像分割(助力于小目标检测和分割高效涨点)

摘要:我们提出了一种新颖的基于注意力尺度序列融合的 You Only Look Once (YOLO) 框架 (ASFYOLO),该框架结合了空间和尺度特征,可实现准确和快速的细胞实例分割。基于 YOLO 分割框架构建,我们采用尺度序列特征融合 (SSFF) 模块来增强网络的多尺度信息提取能力,并使用三重特征编码器 (TFE) 模块来融合不同尺度的特征图以增加详细信息。

2024-09-08 22:25:10 917

原创 YOLOv10改进 | Conv篇 | YOLOv10添加RFAConv一种新的感受野注意力卷积模块(提高特征提取的精确性)

空间注意力已被广泛用于提高卷积神经网络的性能。但是,它有一定的局限性。在本文中,我们提出了一个关于空间注意力有效性的新视角,即空间注意力机制从本质上解决了卷积核参数共享的问题。然而,空间注意力生成的注意力图中包含的信息对于大尺寸的卷积核来说是不够的。因此,我们提出了一种新的注意力机制,称为感受野注意 (RFA)。现有的空间注意力,如卷积块注意力模块(CBAM)和协调注意力(CA)等,只关注空间特征,并不能完全解决卷积核参数共享的问题。

2024-09-08 22:24:33 495

原创 YOLOv10改进 | Neck改进篇 | YOLOv10引入 BiFPN双向特征金字塔网络

模型效率在计算机视觉中变得越来越重要。在本文中,我们系统地研究了对象检测的神经网络架构设计选择,并提出了几个关键优化以提高效率。首先,我们提出了一种加权双向特征金字塔网络 (BiFPN),它允许简单快速的多尺度特征融合;其次,我们提出了一种复合缩放方法,可以同时统一缩放所有主干、特征网络和盒/类预测网络的分辨率、深度和宽度。基于这些优化和更好的主干网络,我们开发了一个新的对象检测器系列,称为 EfficientDet,它在广泛的资源限制下始终实现比现有技术高得多的效率。

2024-09-08 20:40:55 467

原创 YOLOv10改进 | Neck改进篇 | YOLOv10引入SDI多尺度融合模块助力于小目标检测和图像分割涨点

摘要:在本文中,我们介绍了 U-Net v2,这是一种用于医学图像分割的新型强大且高效的 U-Net 变体。它旨在增强语义信息对低级特征的注入,同时用更精细的细节来提炼高级特征。对于输入图像,我们首先使用深度神经网络编码器提取多级特征。接下来,我们通过注入来自更高级别特征的语义信息并通过 Hadamard 产品集成来自较低级别特征的更精细细节来增强每个级别的特征图。我们新颖的跳过连接为所有级别的功能提供了丰富的语义特征和复杂的细节。改进的功能随后传输到解码器,以进行进一步处理和分割。

2024-09-08 20:40:52 412

原创 YOLOv10改进 | Conv篇 | YOLOv10添加SCConv空间和通道重构卷积(来自CVPR2023论文,既轻量又涨点,助力于小目标任务涨点)

摘要:卷积神经网络 (CNN) 在各种计算机视觉任务中取得了卓越的性能,但这是以消耗大量计算资源为代价的,部分原因是卷积层提取了冗余特征。最近的工作要么压缩训练有素的大规模模型,要么探索设计良好的轻量级模型。在本文中,我们尝试利用特征之间的空间和通道冗余进行 CNN 压缩,并提出了一种高效的卷积模块,称为 SCConv(空间和通道重建卷积),以减少冗余计算并促进代表性特征学习。所提出的 SCConv 由两个单元组成:空间重建单元 (SRU) 和通道重建单元 (CRU)。

2024-09-08 17:15:48 552

原创 YOLOv10改进 | Conv篇 | YOLOv10引入SPDConv卷积特征无损下采样模块(助力小目标任务高效涨点)

摘要:卷积神经网络 (CNN) 在许多计算机视觉任务(如图像分类和对象检测)中取得了巨大成功。但是,在图像分辨率低或物体较小的更艰巨任务中,它们的性能会迅速下降。在本文中,我们指出,这源于现有 CNN 架构中一个有缺陷但常见的设计,即使用跨步卷积和/或池化层,这会导致细粒度信息的丢失和学习效果较差的特征表示。为此,我们提出了一个名为 SPD-Conv 的新 CNN 构建块来代替每个跨步卷积层和每个池化层(从而完全消除了它们)。

2024-09-08 16:11:19 507

原创 YOLOv10改进 | 细节涨点篇 | YOLOv10改进DySample一种轻量的动态上采样算子,轻量又涨点

论文地址点击此处即可跳转代码地址点击此处即可跳转我们推出了 DySample,这是一款超轻量级且有效的动态上采样器。虽然最近基于内核的动态上采样器(如 CARAFE、FADE 和 SAPA)取得了令人印象深刻的性能提升,但它们也带来了大量工作负载,这主要是由于耗时的动态卷积和用于生成动态内核的额外子网。此外,对 FADE 和 SAPA 的高分辨率功能指导的需求在某种程度上限制了它们的应用场景。

2024-09-07 13:46:09 754

原创 YOLOv10改进 | 注意力改进篇-图像去雾 | YOLOv10引入FCAttention捕捉全局和局部信息交互即插即用注意力模块(来自2024 SCI 一区)

论文地址点击此处即可跳转代码地址点击此处即可跳转摘要:最近,无监督算法在图像去雾方面取得了显著的性能。然而,CycleGAN 框架由于数据分布不一致,会导致生成器学习出现混淆,而 DisentGAN 框架对生成的图像缺乏有效的约束,导致图像内容细节丢失和颜色失真。此外,Squeeze 和 Excitation 通道注意力仅使用全连接层来捕获全局信息,缺乏与局部信息的交互,导致图像去雾的特征权重分配不准确。

2024-09-07 13:08:20 766

原创 YOLOv10改进 | 细节涨点改进篇 | YOLOv10引入CARAFE上采样模块 ,改善了传统上采样过程中的细节保留和重建质量

论文地址点击此处即可跳转代码地址点击此处即可跳转特征上采样是许多现代卷积网络架构中的关键操作,例如特征金字塔。它的设计对于密集的预测任务(如对象检测和语义/实例分割)至关重要。在这项工作中,我们提出了功能的内容感知重组 (CARAFE),这是一种通用、轻量级且高效的运算符来实现这一目标。CARAFE 有几个吸引人的特性: (1) 大视野。与以前仅利用亚像素邻域的工作(例如双线性插值)不同,CARAFE 可以在一个大的感受野内聚合上下文信息。(2) 内容感知处理。CARAFE 不是对所有样本使用固定内核

2024-09-07 12:40:00 343

原创 YOLOv10改进 | 注意力改进篇 | YOLOv10引入MSDA多尺度空洞注意力模块(来自TMM 2023)

多尺度信息提取:通过设置不同的膨胀率,MSDA能够在关注的受感区域内有效地聚合不同尺度的语义信息,减少了自我注意力机制的冗余,无需复杂的操作或额外的计算成本。金字塔结构的利用:DilateFormer采用了一个金字塔结构,在模型的前两个阶段使用MSDA,而在后两个阶段使用普通的多头自注意力(MHSA),这样可以在浅层捕获低级信息,而在深层建模高级交互。

2024-09-07 12:06:55 410

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除