自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(313)
  • 收藏
  • 关注

原创 YOLO12 改进、魔改| 通道与空间注意力模块CASAB,筛选关键特征、抑制冗余信息,提升复杂场景中的检测能力

本文提出CASAB模块以解决计算机视觉中传统特征提取方法的局限性。该模块采用"通道筛选+空间聚焦"的双维度注意力协同机制:通道层面通过池化操作和全连接层生成注意力权重,筛选关键特征通道;空间层面利用多种池化方式和深度卷积定位重要区域。实验表明,CASAB在目标检测任务中能提升多尺度目标的定位精度,在图像分割任务中可改善边界模糊问题。将其集成到YOLO系列模型中,可在保持实时性的同时增强小目标和遮挡目标的检测能力。文章详细介绍了CASAB的代码实现方式及其在YOLOv12中的集成步骤。

2025-11-17 09:56:57 920

原创 YOLO11 改进、魔改| 通道与空间注意力模块CASAB ,通过双维度注意力机制自适应强化关键特征、抑制冗余信息,提升模型对重要特征的捕捉与利用能力

CASAB是一种融合通道与空间注意力的深度学习模型优化方法。针对CNN局限性和Transformer不足,它通过双维度协同机制:在通道维度采用全局池化和全连接层优化特征权重,在空间维度结合多类型池化和深度卷积定位关键区域,最终通过加权融合提升特征表达能力。实验表明,将CASAB集成到YOLOv11中,可显著增强多尺度目标检测能力,有效解决边界模糊和背景干扰问题,同时优化计算效率。该方法通过精准筛选关键特征,为复杂场景下的目标检测和分割任务提供了更高效的特征表达方案。

2025-11-17 09:56:01 855

原创 YOLO12 改进、魔改|秩增强线性注意力RALA,通过增强 KV 缓冲与输出特征的矩阵秩,增强 YOLO 对小目标、复杂场景目标的识别能力

RALA是一种解决线性注意力低秩问题的新型注意力机制。针对传统线性注意力在视觉任务中空间建模能力不足的缺陷,RALA通过KV缓冲秩增强和输出特征秩增强两个关键模块,在保持线性复杂度的同时提升特征矩阵的秩。KV缓冲模块引入上下文感知权重增强信息多样性,输出特征模块通过通道交互和原始信息调制实现满秩特征表达。实验表明,RALA在目标检测和图像分割任务中能够有效提升细粒度特征建模能力,且计算高效。该机制可集成到YOLO系列模型中,在不显著增加计算负担的情况下增强目标检测性能,特别是对小目标和复杂场景的处理能力。

2025-11-14 09:30:07 1123

原创 YOLO11 改进、魔改| 秩增强线性注意力RALA,秩增强特性能提升 YOLO 对小目标、遮挡目标的特征捕捉能力,优化复杂场景下的检测鲁棒性

本文提出RALA(秩增强线性注意力)机制,针对传统Transformer在视觉任务中的计算效率与性能瓶颈问题。RALA通过KV缓冲秩增强和输出特征秩增强两大模块,结合全局查询权重分配与特征融合策略,在保持线性计算复杂度的同时提升特征表达能力。实验表明,RALA可有效增强目标检测中对复杂场景和小目标的特征捕捉能力,并与YOLO框架高效兼容。文章详细介绍了RALA的原理架构,以及在YOLOv11中的具体实现步骤,包括代码集成和模型配置方法,为视觉任务提供了一种高效且强表达的注意力解决方案。

2025-11-14 09:29:43 825

原创 YOLO11 改进、魔改|四边形注意力机制QA,通过学习自适应的四边形注意力区域,提升对小目标和异形目标的检测性能

视觉Transformer(ViT)在处理高分辨率图像时面临计算复杂度问题,基于窗口的注意力机制虽然降低了复杂度,但固定窗口形状难以适配现实目标的多样性。为此提出的四边形注意力(QA)机制,通过可学习的四边形区域自适应目标形态,支持平移、旋转等变换,并引入正则化稳定训练。QA可无缝集成到YOLO等模型中,在目标检测任务中能精准覆盖不同尺度和姿态的目标,增强对全局特征的建模;在分割任务中更好地处理复杂轮廓和重叠目标。实验表明,将QA集成到YOLOv11后,在保持速度优势的同时提升了检测精度,特别是对小目标和异

2025-11-12 09:34:37 1064

原创 YOLO12 改进、魔改| 四边形注意力机制quadrangle attention (QA),打破固定窗口的局限,精准捕捉异形、多尺度目标特征,提升检测鲁棒性。

视觉Transformer中传统固定窗口注意力机制难以适应复杂目标形态,为此提出Quadrangle Attention(QA)机制。QA通过可学习的四边形窗口实现数据驱动的注意力区域调整,包含基础窗口生成、四边形变换和正则化三大模块,能自适应目标尺度、姿态和形状变化。实验表明,QA在YOLO等目标检测模型中的应用可显著提升对异形、小目标和遮挡目标的识别能力,同时保持计算效率。该方法通过动态窗口调整避免了固定窗口的局限性,为视觉任务提供更灵活的特征建模方案。

2025-11-12 09:29:42 843

原创 YOLO11 改进、魔改| 双聚合注意力融合模块DAAFM, 通过整合模态内自注意力与模态间交叉注意力,提升对小目标、复杂背景下目标的检测能力。

本文提出DAFM双聚合注意力融合模型,通过自注意力(SAB)和交叉注意力(CAIB)机制协同工作,有效解决多模态特征融合中模态内连贯性与模态间互补性的平衡问题。DAFM包含特征投影层、双注意力计算单元和特征融合层,采用负softmax机制突出模态差异信息,通过可学习权重优化特征融合效果。实验表明,将DAFM集成到YOLO目标检测框架中,能显著提升复杂场景下小目标和遮挡目标的检测精度,增强模型泛化能力。文章详细介绍了DAFM的原理结构、在目标检测任务中的应用优势,以及将其嵌入YOLOv11的具体实现步骤和代码

2025-11-11 09:28:33 927

原创 YOLO12 改进、魔改| 双聚合注意力融合模块DAAFM,通过双注意力协同机制,破解传统融合方法中模态内一致性与模态间互补性难以兼顾的难题,为下游任务提供更精准、全面的特征支撑。

本文提出DAFM双聚合注意力融合模块,用于解决多模态视觉任务中的特征融合难题。传统方法存在模态内特征关联性挖掘不足和模态间差异利用不充分两大瓶颈。DAFM通过自注意力块(SAB)强化模态内特征一致性,采用交叉注意力交互块(CAIB)结合softmin机制挖掘模态间互补信息,并通过动态权重平衡两种注意力输出。实验表明,将DAFM集成到YOLOv12中能显著提升目标检测和图像分割性能,特别是在小目标、遮挡目标等复杂场景下表现优异。文章详细给出了DAFM在YOLOv12中的实现路径,包括代码集成步骤和模型配置文件

2025-11-11 09:27:00 936

原创 YOLO11 改进、魔改| 细节保留上下文融合模块DPCF,通过动态门控保留小目标、遮挡目标的细节,显著提升这类难点目标的检测精度。

本文提出细节保留上下文融合(DPCF)模块,用于解决计算机视觉多尺度任务中特征融合的难题。该模块通过三层逻辑实现高效融合:1)特征对齐确保维度匹配;2)通道分段与动态门控实现自适应加权融合;3)融合优化消除冗余信息。实验表明,DPCF能有效平衡细节保留与语义整合,在目标检测和图像分割任务中显著提升小目标识别和边界精细度。特别是将DPCF集成到YOLO架构后,既保持了实时检测性能,又改善了FPN固定权重融合的缺陷,在复杂场景中显示出优越性能。

2025-10-31 10:00:43 992

原创 YOLO12 改进、魔改| 细节保留上下文融合模块DPCF,通过通道分段与空间自适应门控机制,动态平衡高分辨率细节特征与低分辨率语义特征的融合比例,在保留目标精细信息的同时整合全局上下文,提升视觉任务

摘要:本文提出细节保留上下文融合(DPCF)模块,用于解决多尺度特征融合中的关键问题。该模块通过自适应权重分配和细节-语义协同保留机制,动态调节高低分辨率特征的融合比例:在目标边缘等细节区域侧重高分辨率特征,在背景区域强化低分辨率语义特征。在目标检测中可减少小目标细节丢失,在图像分割中能兼顾边界精细度和语义一致性。研究还展示了DPCF与YOLO架构的结合方法,通过改进特征金字塔融合环节提升检测性能,同时保持计算效率。文末提供了代码实现路径和模型配置方法。

2025-10-31 10:00:22 876

原创 带你轻松搞懂:YOLO如何计算COCO指标(含大中小目标分析)

本文介绍了如何从YOLO模型出发,通过三个步骤计算目标检测任务中不同尺度目标的评估指标(mAP和AR)。首先使用YOLO模型验证并生成预测结果文件(predictions.json);然后将YOLO格式的标签转换为COCO标准格式;最后利用COCOAPI计算大、中、小目标的专项评估指标。文中提供了完整的代码实现,包括YOLO标签到COCO格式的转换脚本和评估脚本,能够输出IoU=0.5阈值下不同尺寸目标的AP和AR值,以及完整的评估指标汇总。该方法可以帮助研究者更全面地展示模型在多尺度目标上的检测性能。

2025-10-29 09:07:58 797

原创 YOLO12 改进、魔改| 跨通道状态空间交互模块CSI 以线性计算复杂度实现全局上下文依赖建模与跨通道特征高效交互,提升模型对目标的判别能力与对复杂背景的抗干扰能力。

本文提出Cross-Channel State-Space Interaction (CSI)模块,用于解决计算机视觉任务中全局上下文建模与跨通道特征交互的难题。CSI结合状态空间模型的高效序列处理能力和跨通道特征重组机制,在保持线性计算复杂度的同时增强特征表达能力。在目标检测中,CSI能有效捕捉长距离依赖关系并提升小目标检测精度;在图像分割中,可优化边界精细度并保持高分辨率特征。研究还展示了将CSI集成到YOLO架构的具体实现方案,通过代码级改进强化特征金字塔的通道互补性,在保证实时性的同时提升检测性能。

2025-10-28 09:11:43 882

原创 YOLO11 改进、魔改| 跨通道状态空间交互模块CSI,以线性计算复杂度实现全局上下文依赖建模与跨通道特征高效融合,提升对复杂场景下小目标、遮挡目标的检测精度。

计算机视觉领域面临全局建模与计算效率的平衡难题。传统CNN无法捕捉远距离像素关联,而Transformer虽能建模全局依赖但计算复杂。VisionMamba等状态空间模型(SSM)通过线性复杂度序列建模提供新思路,但存在通道信息割裂问题。为此提出的跨通道状态空间交互(CSI)模块,通过分段式状态空间编码和跨通道特征重组,实现高效全局建模与通道信息融合。在目标检测中提升小目标和遮挡目标的识别能力,在图像分割中优化边界精细度。该模块可融入YOLO架构,弥补局部视野局限,增强特征关联性,保持实时性能。文章详细介绍

2025-10-28 09:08:44 1018

原创 YOLO12 改进、魔改| Volumetric Self-Attention 体积自注意力,减少因目标与背景空间相似导致的漏检(如小目标、低对比度目标)

本文提出Volumetric Self-Attention(VolSA)机制,解决传统注意力在三维数据处理中的维度割裂和复杂度问题。VolSA通过双分支投影(空间/通道)和多头融合,实现跨维度关联特征提取,计算复杂度仅二次级增长。在目标检测中,VolSA能区分空间相似但通道特征不同的目标;在分割任务中,可提升像素级分类准确性。文章详细介绍了将VolSA集成到YOLOv12的具体代码实现步骤,包括模型配置、文件修改和训练方法,使其在保持实时性的同时提升检测精度。

2025-10-24 09:18:46 746

原创 YOLO11 改进、魔改| 体积自注意力Volumetric Self-Attention,增强 YOLO 对小目标、遮挡目标的特征捕捉能力

本文提出Volumetric Self-Attention(VolSA)方法,用于解决高光谱图像处理中传统自注意力机制的局限性。VolSA通过双维度投影和交叉协方差计算,在三维图像立方体中建立全局关联,将计算复杂度从立方降至二次。该方法创新性地融入了光谱位置先验,通过双向衰减矩阵增强相近波长通道的注意力权重,更符合高光谱数据特性。在目标检测和分割任务中,VolSA能有效结合空间与通道信息,提升复杂场景下的特征区分度。文章还详细介绍了将VolSA集成到YOLOv11模型的具体实现步骤,包括代码修改和配置文件调

2025-10-24 09:18:01 966

原创 YOLO11 改进、魔改| 掩码注意力Mask Attention 通过可学习或动态计算的掩码矩阵,在自注意力机制中选择性地强化图像关键区域特征、抑制无关背景信息,提高检测精度

摘要:MaskAttention是一种新型注意力机制,通过在自注意力中引入可学习掩码矩阵,有效平衡CNN的局部特征提取和Transformer的全局建模能力。其核心原理是利用掩码矩阵抑制无关区域,聚焦关键信息,同时降低计算复杂度。在目标检测和图像分割任务中,MaskAttention能提升小目标检测精度、增强遮挡处理能力,并保持细粒度细节。该机制可集成到YOLO系列模型中,通过代码修改实现性能优化,在保持实时性的同时提高复杂场景下的检测效果。

2025-10-20 09:01:23 957

原创 YOLO12 改进、魔改| 掩码注意力Mask Attention,通过可学习或动态计算的掩码矩阵,选择性强化图像关键区域特征、抑制无关背景信息,提高遮挡、小目标的检测能力

摘要:针对低分辨率图像分割中传统模型的局限性,研究提出MaskAttention机制以平衡局部特征提取、全局上下文建模与计算效率。该机制通过多头掩码自注意力模块实现多尺度特征关注,结合残差连接和前馈网络保留细节信息。实验表明,MaskAttention能有效提升小目标检测精度,减少漏检误检,并降低计算复杂度。将其集成至YOLO模型可增强复杂场景下的检测鲁棒性,同时保持实时性优势。论文详细介绍了模型改进方法及代码实现路径,为资源受限场景下的目标检测任务提供了新解决方案。

2025-10-20 09:01:19 956

原创 YOLO11 改进、魔改|防御性细化模块DRM,提高背景、噪声的干扰,补充丢失的特征信息,提高小目标 遮挡的检测能力

本文提出一种防御性细化模块(DRM)用于增强红外与可见光图像融合网络的鲁棒性。该模块通过特征投影、Pearson相关分析和优化的自注意力机制,有效过滤对抗性扰动并补充特征细节,将计算复杂度从O(N²)降至O(N)。实验表明,DRM在目标检测中能提升小目标识别精度,在分割任务中可改善边界清晰度。研究还详细介绍了将DRM集成到YOLOv11模型的具体实现步骤,包括代码修改、配置文件调整等,为提升视觉任务在对抗环境下的性能提供了有效解决方案。

2025-10-17 09:09:57 1218

原创 YOLO12 改进、魔改|防御性细化模块DRM,解决CNN在提取特征过程中存在的特征丢失的问题和背景、噪声干扰的问题,帮助 YOLO 更精准识别小目标或特征不明显的目标

摘要:本文提出防御性细化模块(DRM)解决红外与可见光图像融合的两大痛点:对抗性扰动敏感和U-Net架构特征丢失问题。DRM通过多轮采样与残差操作过滤噪声,结合改进的自注意力机制(计算复杂度O(N))增强特征完整性。实验表明,DRM可提升YOLO等模型在对抗环境下的鲁棒性,有效还原小目标和边缘细节,在检测与分割任务中分别提高精度6.2%和mIoU 4.8%。代码实现上,通过修改YOLOv12的模型配置文件集成DRM模块,验证了其部署可行性。

2025-10-17 09:09:39 1037

原创 YOLO12 改进、魔改|跨视图交互模块CVIM,解决跨视图信息交互效率低、参数冗余问题,减少小目标与遮挡目标的漏检率

本文提出CVIM(跨视图交互模块)来解决立体图像超分辨率中跨视图信息交互的冗余问题。该模块基于缩放点积注意力机制,通过特征转换、注意力计算和特征融合三个核心层实现高效的跨视图信息互补。CVIM采用通道分离策略降低计算复杂度,可适配轻量化网络需求。实验表明,CVIM在目标检测和分割任务中能有效提升性能:在YOLO模型中替换Concat层后,能减少小目标和遮挡目标的漏检率,同时保持实时检测速度。文章还详细介绍了CVIM在YOLOv12中的实现步骤,包括核心代码结构、模型配置和训练流程。

2025-10-16 09:07:14 744

原创 YOLO11 改进、魔改| 跨视图交互模块CVIM,它的核心作用是以轻量化方式实现不同特征图之间的精准信息交互与融合,提升复杂场景下的检测精度

本文提出了一种改进的红外与可见光图像融合方法CVIM,通过防御性细化模块(DRM)增强U-Net架构的鲁棒性。该方法采用"注意力引导的双向信息互补"机制:1)通过特征转换生成Q/K/V矩阵;2)利用注意力权重筛选跨视图信息;3)残差连接实现特征融合。实验表明,CVIM能有效提升对抗性扰动下的融合质量,在目标检测和图像分割任务中表现优异,尤其适用于遮挡场景和边缘设备部署。文章还详细介绍了CVIM与YOLO系列模型的集成方法,包括代码修改步骤和配置文件调整。

2025-10-16 09:06:54 1092

原创 YOLO12 改进、魔改|多极注意力神经算子MANO 通过多尺度分层注意力机制,以线性复杂度实现全局感知与局部细节的高效融合

MANO是一种新型的注意力机制,旨在解决传统Transformer在视觉任务中的高计算复杂度问题。它借鉴了多体模拟中的快速多极方法,通过多级特征金字塔和局部窗口注意力实现线性复杂度计算。MANO能够同时捕捉局部细节和全局上下文,适用于目标检测和语义分割等任务。文章还详细介绍了将MANO集成到YOLOv12模型中的具体步骤,包括代码修改、模型配置和训练方法。这种改进可以增强多尺度特征融合能力,提升对小目标和复杂场景的检测性能,同时保持计算效率。

2025-10-11 10:28:16 912

原创 YOLO11 改进、魔改|多极子注意力神经算子MANO 以线性时间与内存复杂度,在二维网格数据上实现 “局部细细节捕捉 + 全局上下文建模” 的多尺度注意力交互,提高小目标、密集目标检测能力

摘要:Transformer架构在计算机视觉领域面临高计算复杂度问题,特别是在处理高分辨率图像时。为解决这一挑战,MANO(Multipole Attention Neural Operator)借鉴快速多极子法思想,通过多尺度分层交互和跨尺度特征融合,实现线性复杂度同时保留全局感受野和细粒度细节。MANO在目标检测和分割任务中表现出色,能兼顾小目标细节捕捉与大目标全局建模。将其融入YOLO系列可提升检测精度而不过多增加计算负担。文章还提供了MANO与YOLOv11结合的具体代码实现方案。

2025-10-11 10:27:56 936

原创 YOLO12 改进、魔改|双坐标注意力特征提取模块DCAFE,通过并行坐标注意力路径提取具有空间位置感知能力的多层次特征,显著提升模型在复杂场景下的识别精度。

DCAFE模块创新性地提出双路径并行架构,通过平均池化和最大池化的互补设计,显著提升了复杂背景下的目标识别能力。该模块结合坐标注意力机制,能同时捕捉全局上下文和局部细节特征,有效解决传统注意力机制在长距离依赖和敏感特征建模上的不足。实验表明,DCAFE在YOLO等目标检测框架中表现出色,尤其提升了小目标和密集目标的检测精度,且计算效率高,适合实时应用。具体实现方法包括模型架构修改和配置文件调整,相关代码已在GitHub开源。

2025-09-24 09:21:40 1009 1

原创 YOLO11 改进、魔改|双坐标注意力特征提取模块DCAFE,通过并行平均 - 最大池化与坐标注意力编码,高效捕捉特征图的长程依赖、位置信息

DCAFE(双坐标注意力特征提取)模块针对传统注意力机制在图像特征提取中的不足,创新性地融合平均池化与最大池化,实现全局与局部特征的双重捕捉。该模块通过并行池化层、坐标注意力编码层和特征拼接层的三层结构,在保持计算效率的同时,有效解决了复杂场景下特征模糊、位置信息丢失等问题。实验表明,DCAFE在目标检测和分割任务中表现出色,能精准定位目标位置、增强关键特征响应,且与YOLO等模型结合时不会显著增加计算负担。具体实现代码和集成方法已在相关平台开源。

2025-09-24 09:21:15 1401

原创 YOLO12 改进、魔改|分组残差自注意力GRSA​​,通过分组残差和指数位置偏置设计,以更低计算成本实现更优的特征表示能力,适用于轻量级视觉任务,提高密集目标检测能力

本文提出了一种新型分组残差自注意力机制GRSA,用于解决单图像超分辨率任务中Transformer计算复杂度过高的问题。GRSA通过分组残差线性层(GRL)和指数空间位置编码(ES-RPB)两大创新,在保持性能的同时显著降低参数量。GRL将输入特征分组处理并引入残差连接,有效减少60%参数;ES-RPB采用指数衰减曲线增强邻近像素关联,提升位置编码效率。实验表明,该方法在Urban100数据集上达到33.17dB PSNR(×2超分),且参数量控制在1M以下,特别适合移动端部署。文章还探讨了GRSA在目标检

2025-09-22 09:46:36 849

原创 YOLO11 改进、魔改|分组残差自注意力GRSA,通过分组残差优化 QKV 计算、指数空间映射优化位置偏差,在大幅降低自注意力模块参数和计算量的同时,增强特征关系与位置信息的表征能力

【摘要】研究人员提出GRSA(分组残差自注意力)机制,解决Transformer在图像超分辨率任务中效率与性能难以兼顾的问题。GRSA通过分组残差层减少自注意力参数冗余,同时采用指数空间相对位置偏差优化位置信息表征。实验表明,GRSA在降低50%参数量的同时保持模型性能,适用于目标检测和图像分割任务。在YOLO系列模型中集成GRSA可提升小目标检测精度,代码实现已开源,详细部署教程见相关视频与GitHub资源。该机制为轻量化Transformer模型提供了高效解决方案。

2025-09-22 09:46:04 457

原创 YOLO12 改进、魔改|感受野聚合器RFA,通过合理组合中小型卷积核来扩展有效感受野,同时保持感受野的渐近高斯分布特性,实现高效的长距离依赖建模。

本文提出了一种创新的感受野聚合器(RFA)方法,用于解决卷积神经网络中大感受野设计的挑战。RFA通过组合较小的卷积核(7×7、9×9、11×11)来扩展感受野,同时保持感受野的渐近高斯分布特性。其核心是三层结构的LayerOperator(LO),包含放大器(Amp)和鉴别器(Dis)两个组件,形成具有AGD的多层感受野结构。在目标检测和语义分割任务中,RFA展现出显著优势:既保持多尺度特征提取能力,又降低了计算开销。研究还展示了如何将RFA集成到YOLO架构中,提升多目标检测性能而不影响实时性。文章提供了

2025-09-19 14:36:30 1067

原创 YOLO11 改进、魔改|RFA(Receptive Field Aggregator)通过分层聚合多尺度感受野,提高多尺度目标检测能力

卷积神经网络中,RFA模块通过分层设计与组件协作,有效解决了扩大感受野和保持特征权重合理分布的矛盾。其核心采用金字塔式通道拆分和LayerOperator(含Amp与Dis组件),在扩大感受野的同时维持渐近高斯分布,并控制参数计算量。在目标检测中,RFA提升了多尺度目标识别和定位精度;在语义分割中优化了全局语义理解和边界处理。与YOLO结合时,能在不牺牲速度的前提下增强小目标检测能力。代码实现上,通过修改YOLOv11的模型结构和配置文件即可集成RFA模块。

2025-09-19 14:36:07 1112

原创 YOLO12 改进、魔改|十字形窗口自注意力CSWin-SA,通过水平和垂直条纹的并行注意力计算,在较低计算成本下实现更全面的空间关系建模,平衡局部细节保留与全局上下文捕获

本文提出CSWin-SA十字形窗口自注意力机制,解决医学图像分割中传统CNN局部特征局限和Transformer计算复杂度高的问题。该方法通过将多头注意力分组并行处理水平和垂直条纹,在保持计算效率的同时增强感受野交互能力。CSWin-SA在目标检测中能有效捕获物体边界特征和空间关系,在图像分割中能保持边缘细节并建模全局空间关系。文章还介绍了将CSWin-SA融入YOLO框架的方法,可提升不规则目标检测性能,并提供了详细的代码实现路径和模型配置步骤。

2025-09-18 09:13:52 729

原创 YOLO11 改进、魔改|交叉形窗口自注意力Cross-Shaped Window Self-Attention 提升对多尺度目标和复杂结构的特征表示能力

本文提出Cross-Shaped Window Self-Attention(CSWSA)方法,通过水平与垂直条纹的并行自注意力机制,有效平衡了图像任务中全局信息捕捉与计算效率的矛盾。该方法将特征图划分为水平和垂直条纹,并行计算自注意力后融合输出,既保留了局部细节又覆盖了全局语义关联。在目标检测中,CSWSA能提升多尺度目标的检测精度;在图像分割中,可增强边缘轮廓和内部结构的捕捉能力。文章还介绍了将CSWSA集成到YOLOv11模型的具体实现步骤,包括代码修改和配置文件调整,为高分辨率图像处理任务提供了一种

2025-09-18 09:12:57 1291

原创 YOLO11 改进、魔改|傅里叶残差通道注意力块FRCAB,通过频率域全局依赖捕捉与空间域残差通道注意力的协同,强化特征中的高频细节信息

深度学习密集预测任务面临高频信息丢失和低频冗余问题,传统注意力机制难以有效捕捉频率维度依赖。FRCAB提出频率域与空间域协同优化方案,通过快速傅里叶变换挖掘全局依赖关系,结合残差通道注意力强化关键特征。该方法在目标检测中能增强小目标识别能力,在图像分割中可提升边缘精度。通过频率域振幅相位分析和逆变换操作,有效保留高频细节并优化通道权重,显著改善密集预测任务的性能表现。

2025-09-17 09:05:23 1314

原创 YOLO12 改进、魔改|傅里叶残差通道注意力块(FRCAB),通过频域分析和通道注意力机制,在保持低频语义信息的同时增强高频细节表示,从而提升密集预测任务的性能

本文提出了一种频域通道注意力块(FRCAB)框架,用于解决计算机视觉密集预测任务中的关键挑战。FRCAB创新性地将频域分析与通道注意力机制融合,通过快速傅里叶变换分解特征为振幅和相位成分,采用多级残差连接保留不同频段信息。该方法在目标检测和图像分割任务中表现出显著优势:频域处理增强全局上下文感知,残差结构保持细节特征,特别适合处理多模态数据。文章还详细介绍了将FRCAB集成到YOLO框架的具体实现方案,包括代码结构和配置方法。实验结果表明,该改进能有效提升模型在多尺度目标检测和边缘定位方面的性能。

2025-09-17 09:04:34 803

原创 YOLO11 改进、魔改|U 型视觉曼巴块UVM-Net Block,融合卷积层的局部特征提取能力与 SSM 的长距离依赖捕捉能力,以线性计算复杂度高效实现局部与全局特征的结合,减少噪声影响

本文提出UVM-NetBlock模块,通过融合卷积层与状态空间模型(SSM)的优势,在图像恢复任务中实现高效长距离依赖建模。该模块采用双分支SSM结构,在保持线性计算复杂度的同时,有效结合局部特征提取与全局上下文建模能力。在目标检测任务中,能提升复杂场景下的检测精度;在图像分割中,可增强边界分割准确性。研究还展示了如何将UVM-NetBlock集成到YOLOv11模型中,通过修改模型配置文件和代码实现,在保证实时性的同时提升检测性能。相关代码已开源,为图像处理任务提供了新的高效解决方案。

2025-09-11 08:37:35 927

原创 YOLO12 改进、魔改|U形视觉曼巴块UVM-Net Block,通过结合卷积神经网络(CNN)的局部模式识别能力和状态空间序列模型(SSM)的全局上下文理解能力,提高复杂天气下的检测能力

摘要:本文提出UVM-NetBlock模块以解决图像去雾中Transformer计算复杂度高的问题。该创新采用结构化状态空间序列模型(S4)构建Bi-SSM结构,通过通道域特征滚动实现高效长程依赖建模,计算复杂度仅为线性。实验表明,该模块在YOLO等模型中能显著提升雾天目标检测和图像分割性能,尤其改善小目标检测效果,同时保持实时性优势。研究提供了完整的代码实现方案,包括YOLOv12中的集成方法。

2025-09-11 08:37:05 909

原创 YOLO12 改进、魔改|通道自注意力卷积块CSA-ConvBlock,通过动态建模特征图通道间的依赖关系,优化通道权重分配,在强化有效特征、抑制冗余信息

摘要:针对传统CNN在太阳暗条分割任务中存在的空间信息丢失和通道间依赖关系建模不足问题,研究提出了一种轻量化的通道自注意力卷积块(CSA-ConvBlock)。该模块通过无偏卷积生成查询、键和值特征图,利用相似度计算和Softmax激活动态分配通道权重,结合残差连接保留空间细节。实验表明,CSA-ConvBlock可有效提升YOLO等模型对不规则目标的检测精度,在保持实时性的同时降低计算资源消耗,适用于天基观测设备等资源受限场景。研究还提供了将模块集成到YOLOv12的具体代码实现方案。

2025-09-08 23:28:59 1118

原创 YOLO11 改进、魔改|通道自注意力卷积块CSA-ConvBlock,实现 “轻量化特征增强”

本文提出了一种新型通道自注意力卷积块(CSA-ConvBlock),用于解决传统CNN在池化操作中的信息丢失问题和通道间依赖建模不足的缺陷。该模块通过无偏卷积生成查询、键和值特征图,计算通道相似度并生成全局权重,实现特征图通道间的动态优化。实验表明,CSA-ConvBlock在目标检测和图像分割任务中能有效增强特征表达能力,提升小目标检测精度和分割边缘的精细度,同时保持轻量化优势。文章还详细介绍了将CSA-ConvBlock集成到YOLOv11模型的具体实现方法,包括代码修改步骤和配置文件调整,为实际应用提

2025-09-08 23:05:42 1219

原创 YOLO12 改进、魔改|深度反向卷积Converse2D,通过非迭代的正则化优化实现特征精确恢复,增强特征上采样,减少特征丢失

本文提出Converse2D算子,构建深度卷积的数学逆运算,解决传统转置卷积的非逆运算问题。Converse2D将卷积逆问题转化为正则化最小二乘优化,通过FFT推导闭式解实现高效非迭代计算,并集成可学习参数优化性能。该算子能精准恢复下采样丢失的细节,在目标检测和图像分割中展现优势:提升小目标检测精度,减少特征模糊;增强分割边界重建,避免伪影。结合YOLO框架时,其高效计算适配实时需求,多尺度特征恢复能力提升检测效果。文章详细介绍了Converse2D的原理设计、应用优势及YOLOv12集成方法。

2025-08-26 08:35:58 882

原创 YOLO11 改进、魔改|逆向卷积Converse2D,过解析方式实现卷积逆运算的算子,能够高效、高保真地重建输入特征图,适用于图像恢复、上采样和特征重建

Converse2D是一种新型深度反向卷积算子,通过正则化最小二乘优化在频域实现卷积的精确逆运算,解决了传统转置卷积的伪影问题。该算子包含可学习卷积核、自适应正则化参数和插值初始化,可集成到YOLO等网络提升特征重建质量。在目标检测和语义分割任务中,能更好恢复细节和空间信息,改善小目标检测和边缘分割精度。通过模块化设计结合1×1卷积和残差连接,形成类似Transformer的灵活结构。实验表明,Converse2D可有效替代YOLO中的上采样模块,提升特征金字塔的融合质量。

2025-08-26 08:35:53 1446

原创 YOLO12 改进、魔改|边缘 - 高斯聚合EGA模块,增强低质量图像,识别目标边缘,抑制背景噪声干扰,提升小目标检测能力

摘要:EGA(边缘-高斯聚合)模块针对低质量图像检测问题,结合Scharr滤波器的高频边缘提取与高斯卷积的噪声抑制能力,实现阶段自适应特征增强。该模块通过动态切换边缘提取(浅层)与高斯建模(深层)操作,配合三级卷积融合机制,显著提升遥感、医学等低质量图像的目标检测与分割性能。实验表明,EGA在YOLO框架中能有效增强小目标识别,抑制背景干扰,且计算开销低,为复杂场景下的视觉任务提供了轻量化解决方案。代码已集成至YOLOv12等开源项目。

2025-08-22 09:12:38 1194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除