- 博客(331)
- 收藏
- 关注
原创 YOLO双backbone改进,双聚合注意力融合模块DAAFM,通过双聚合机制,自适应强化双backbone特征一致性、挖掘跨 backbone 特征互补性,实现高效精准的特征融合
摘要:双聚合注意力融合模块(DAAFM)通过自注意力与交叉注意力机制,有效解决多模态图像融合和目标检测中的特征融合问题。该模块兼顾模态内一致性和模态间互补性,利用负softmax机制增强特征差异性提取,适用于红外-可见光等模态差异显著场景。在YOLO双backbone架构中,DAAFM能精准平衡全局与局部特征,降低冗余噪声,提升跨尺度特征协同能力,同时保持计算高效性,显著改善目标检测精度。实验表明,该方法在LLVIP等数据集上效果显著,代码已开源。
2026-01-08 09:35:15
570
原创 YOLO双backbone改进,跨模态注意力机制CMA,通过将不同模态特征映射至统一空间并动态计算注意力权重,实现多模态信息的精准对齐与互补融合,突出任务相关关键信息,提升模型的检测能力
摘要:跨模态注意力机制(Cross-ModalAttention,CMA)通过模态对齐和注意力分配,有效解决了多模态信息融合中的维度失配问题。在YOLO双Backbone架构中,CMA能够统一不同支路的特征空间,实现细粒度特征对齐,增强特征互补性,从而提升复杂场景下的目标检测精度。该方法通过投影层、特征重塑、相似度计算等核心组件,动态调节注意力权重,使模型能更精准地关注关键信息。实践表明,CMA可显著改善双Backbone架构的性能,特别适用于红外-可见光等跨模态目标检测任务。
2026-01-08 09:33:56
698
原创 YOLO12 改进、魔改| 层级特征融合编码器HFFE,通过对齐、提纯、校准、融合四大步骤,整合跨层级特征的细节与语义优势,生成高质量融合特征,为视觉任务提供更精准的目标表征与位置线索。
摘要:HFFE(Hierarchical Feature Fusion Enhancement)是一种针对深度学习视觉任务中多尺度特征融合瓶颈的创新解决方案。该方法通过"层级协同、注意力引导、自适应校准"机制,采用特征对齐、空间注意力提纯、跨层交互校准和坐标注意力融合四步处理流程,有效解决了浅层与深层特征间的语义鸿沟与分布差异问题。实验表明,HFFE在目标检测中能提升小目标定位精度和复杂场景鲁棒性,在图像分割中可同时优化边界锐度和区域一致性。该模块可无缝集成到YOLO系列模型中,在不显著
2026-01-07 09:17:46
802
原创 YOLO11 改进、魔改| 层级特征融合编码器HFFE,通过跨层级特征的对齐、注意力提纯与自适应交互,生成兼具细粒度细节与强语义信息的融合特征,提升视觉任务中目标的判别力与定位精度。
本文提出层级特征融合编码器(HFFE)来解决深度学习视觉任务中多尺度特征的融合问题。HFFE通过跨注意力引导的层级交互实现特征自适应校准,包含四个关键步骤:输入对齐、注意力提纯、跨层交互和融合输出。该方法在目标检测中能保留细粒度信息并增强语义判别力,在图像分割中可平衡边界精度与区域一致性。将HFFE融入YOLO架构可显著提升多尺度检测能力,特别是小目标召回率,同时保持计算效率。文章详细介绍了HFFE的原理、优势及在YOLOv11中的实现步骤,包括代码集成和模型配置方法。实验结果表明该方法能有效提升复杂场景下
2026-01-07 09:17:13
1400
原创 YOLO双backbone改进,多尺度自适应空间注意力门控MASAG,通过多尺度特征融合、动态感受野调整与双向空间调制,实现不同分支特征的智能筛选与深度融合,抑制背景干扰,提升模型检测能力
本文提出了一种用于医学图像分割的轻量化特征融合模块MASAG,旨在解决传统方法在局部精细特征与全局语义信息融合上的不足。MASAG通过多尺度特征提取、动态空间注意力权重生成和双向特征调制,实现了编码器与解码器特征的自适应融合。研究进一步探讨了将MASAG应用于YOLO双backbone架构的优势,包括自适应特征融合、动态感受野匹配、背景噪声抑制和特征互补强化。实验表明,该方法能有效提升目标检测精度和边界定位准确性。论文还提供了基于YOLOv8的实现代码,支持单/双模态检测任务。
2026-01-06 09:29:39
1107
原创 YOLO双backbone改进,细节保留上下文融合模块DPCF,通过空间自适应门控机制与分通道精细化融合,动态平衡多分支特征的细节信息与语义信息,提升双backbone特征融合。
摘要:DPCF模块是一种针对多尺度特征融合优化的自适应权重分配机制,特别适用于YOLO双backbone架构。其核心采用"对齐-分割-自适应融合-精炼"四步策略,通过空间门控权重动态调节高低分辨率特征及双分支特征的融合比例。该方法能有效解决传统融合方式导致的细节丢失和语义模糊问题,在保持轻量化的同时显著提升小目标和弱对比度目标的检测精度。实验表明,DPCF可精准平衡双backbone的特征互补性,既保留细节特征又强化语义信息,且不影响YOLO的实时性能。
2026-01-06 09:26:08
709
原创 YOLO12 改进、魔改| 参数化小波下采样模块PWD,通过频率分解与空间互补的双分支协同、自适应融合机制,在降低特征维度、扩大感受野的同时,完整保留目标的关键空间细节与频率信息,避免特征碎片化.
本文提出了一种参数化小波下采样(PWD)模块,用于解决深度学习模型中传统下采样方法在细节保留和频率捕捉方面的矛盾。PWD采用双分支并行处理:Haar小波变换实现多尺度频率分解,分组卷积模拟空间局部聚合,通过通道注意力机制动态融合特征。实验表明,PWD在目标检测任务中能有效保留小目标细节并增强特征区分度,在语义分割任务中可提升边界精度和区域完整性。将PWD集成到YOLO模型中,可在保持实时性的同时显著提升检测性能。文章还详细介绍了PWD在YOLOv12中的实现步骤和代码配置方法。
2026-01-05 09:40:52
577
原创 YOLO11 改进、魔改| 参数化小波下采样模块PWD,通过空间 - 频率双分支协同与自适应融合,在降低特征维度的同时保留目标的关键空间细节与频率信息
本文提出参数化小波下采样(PWD)模块,通过融合小波变换与可学习卷积,解决传统下采样方法丢失细节、特征碎片化的问题。PWD采用双分支结构:Haar小波分支分解频率特征,分组卷积分支保留空间细节,并通过注意力机制自适应融合。实验表明,PWD在目标检测中能提升小目标识别率,在语义分割中可优化边界精度。将其集成到YOLOv11模型后,在保持实时性的同时显著提高了检测性能。文中详细介绍了PWD的原理结构、实现优势以及在YOLOv11中的具体集成方法。
2026-01-05 09:40:24
906
原创 YOLO11 改进、魔改| 局部重要性注意力LIA ,以极简计算开销实现高阶特征交互,自适应强化局部关键特征、抑制冗余信息,提升模型检测能力。
本文提出了一种新型局部重要性注意力机制(LIA),用于解决计算机视觉任务中传统注意力方案的计算效率与特征表征能力的平衡问题。LIA通过"局部重要性建模+轻量门控校准"的核心设计,以线性复杂度实现二阶信息交互,在保持低计算开销的同时增强特征表达能力。该机制包含局部重要性提取、门控校准和激活上采样三个模块,可有效应用于目标检测和图像分割任务。文章还详细介绍了将LIA集成到YOLOv11模型的具体实现步骤,包括代码结构修改、配置文件调整和训练参数设置,为轻量化模型性能提升提供了实用解决方案。
2025-12-22 09:09:59
968
原创 YOLO12 改进、魔改| 局部重要性注意力LIA,以线性计算复杂度实现高阶特征交互,动态强化局部关键特征、抑制冗余信息,在不牺牲推理速度的前提下,提升视觉模型的特征表征能力与任务适配性。
本文提出局部重要性注意力(LIA)机制,解决计算机视觉中注意力模型性能与效率难以兼顾的问题。LIA通过"局部特征聚焦+轻量动态校准"的设计,以线性计算复杂度实现高阶特征交互:1)使用SoftPool和卷积构建局部重要性图谱;2)引入门控机制进行动态校准;3)通过双线性插值恢复原始尺寸。实验表明,LIA在目标检测中能精准聚焦关键特征,在图像分割中可细化边界语义,同时保持高效推理速度。研究还展示了将LIA集成到YOLOv12模型的具体实现方案,包括代码结构修改和配置文件调整,为轻量化注意力机
2025-12-22 09:09:37
852
原创 YOLO12 改进、魔改| 多尺度自适应空间注意力门控MASAG,通过动态调整感受野、优化多尺度特征融合与空间注意力分配,实现局部细节与全局语境的精准协同,高效抑制冗余干扰,为视觉任务提供更优质的特征
摘要:针对医学影像等复杂视觉任务中目标尺寸、形状差异大的问题,本文提出Multi-Scale Adaptive Spatial Attention Gate(MASAG)模块。该模块通过多尺度特征融合、空间选择、跨调制交互和重校准四阶段处理,动态调整感受野并优化特征融合,有效平衡局部细节与全局语义。实验表明,MASAG能显著提升目标检测和图像分割性能,尤其改善多尺度目标捕捉能力。文章详细介绍了将MASAG集成到YOLOv12模型的具体实现方法,包括代码结构修改和配置文件调整流程,为复杂视觉任务提供了新的解决
2025-12-19 09:27:07
995
原创 YOLO11 改进、魔改| 多尺度自适应空间注意力门控MASAG,通过动态调整感受野范围、优化多尺度特征融合方式与空间注意力分配逻辑,实现局部细节与全局语境的精准协同,高效抑制冗余干扰,为各类视觉任务
摘要:本文提出MASAG(多尺度自适应空间注意力门)模块,旨在解决复杂视觉任务中局部与全局特征协同的难题。该模块通过多尺度特征聚合、动态空间权重分配、双向交互融合和特征重校准四个关键步骤,实现感受野与注意力的自适应调整。实验表明,MASAG能有效提升YOLO等模型在多尺度目标检测和图像分割中的性能,尤其改善了小目标检出率和边界分割精度。文章详细阐述了MASAG的结构设计原理,并提供了将其集成到YOLOv11模型的具体实现方法。
2025-12-19 09:26:45
1106
原创 YOLO12 改进、魔改| 残差通道 - 空间注意力块RCSAB,是通过残差连接保障特征完整性,结合通道与空间双重注意力机制自适应优化特征分布,强化目标相关特征、抑制背景干扰,提升检测能力。
本文提出了一种融合残差连接与双重注意力机制的RCSAB模块,用于提升计算机视觉任务中的特征提取能力。该模块通过通道注意力筛选关键特征通道,空间注意力聚焦目标区域,结合残差连接保留原始特征,实现了特征提纯与抗干扰能力的双重提升。实验表明,RCSAB在目标检测中能增强小目标识别和定位精度,在图像分割中可优化边界细节。该模块可无缝集成到YOLO系列模型中,通过简单的代码修改即可显著提升检测性能,特别适用于复杂背景下的视觉任务。
2025-12-18 09:06:20
953
原创 YOLO11 改进、魔改| 残差通道 - 空间注意力块RCSAB,通过残差连接与双重注意力校准的协同,自适应优化特征图的通道权重与空间分布,强化目标相关特征、抑制背景干扰,提高模板检测能力。
摘要:RCSAB(残差通道-空间注意力模块)通过结合残差学习与双重注意力机制,有效提升计算机视觉任务中的特征提取能力。该模块利用通道注意力筛选关键特征通道,空间注意力聚焦目标区域,配合残差连接保持特征完整性。在目标检测中增强小目标识别能力,在图像分割中改善边界精度。实验表明,将RCSAB集成到YOLO系列模型中,能显著提升特征质量与检测性能,且兼容现有网络架构。研究提供了详细的模块实现方案和YOLOv11集成方法,为复杂场景下的视觉任务提供有效解决方案。
2025-12-18 09:06:13
790
原创 双 Backbone 架构也能跑单模态任务?—— 提升单模态数据的特征增强与性能突破
本文探讨了单模态目标检测中双Backbone架构的创新应用,突破了传统"双Backbone=双模态"的认知局限。研究提出将单模态数据通过差异化设计的双Backbone(细节分支+语义分支)进行并行处理,实现特征增强与性能提升。实验表明该方法在小目标检测、鲁棒性等方面显著优于传统单Backbone结构(mAP50提升4.6%),特别适用于工业检测、航拍等需要兼顾细节与语义的场景。文章详细阐述了架构设计、训练策略及适用场景,为单模态目标检测提供了新的优化思路。
2025-12-12 09:19:23
680
原创 YOLO 双 Backbone 双模态融合:以 LLVIP 数据集为例的红外 - 可见光目标检测实践
本文针对弱光环境下目标检测的挑战,提出了一种基于YOLO架构的双Backbone红外-可见光融合检测方法。通过分析LLVIP数据集的特点,指出可见光图像在夜间存在噪声和模糊问题,而红外图像能保持结构特征但缺乏语义信息。研究设计了三种特征融合方式:简单拼接、加权融合和跨模态注意力机制,其中注意力机制表现最佳。实验采用双分支结构分别处理两种模态,在高层进行特征融合,最终实现夜间行人检测性能的提升。该方法充分利用了红外图像的结构优势和可见光图像的细节信息,为复杂场景下的目标检测提供了有效解决方案。
2025-12-12 09:13:21
1034
原创 YOLO12 改进、魔改| 空间与通道协同注意力模块SCSA,通过空间与通道维度的深度协同,破解传统注意力机制的语义利用不足与差异处理难题,实现特征提取精度与泛化能力的双重提升
SCSA:空间与通道协同注意力机制助力视觉任务优化 摘要:本文提出SCSA(空间与通道协同注意力)机制,通过多语义空间引导与通道差异缓解的协同设计,解决传统混合注意力在特征融合中的不足。SCSA包含共享多语义空间注意力(SMSA)和渐进式通道自注意力(PCSA)两个模块,分别实现多尺度空间语义提取和通道特征优化。在目标检测和图像分割任务中,SCSA能有效提升模型对多尺度目标的识别能力,增强特征判别性。实验表明,该机制可无缝集成到YOLO系列模型中,在保持实时性的同时显著提升检测精度。SCSA的轻量化设计使其
2025-11-28 19:03:15
1134
原创 YOLO11 改进、魔改| 空间与通道协同注意力模块SCSA,通过空间与通道注意力的协同作用,提升视觉任务的特征提取能力与泛化性能。
SCSA(空间-通道协同注意力)机制针对现有注意力模块的不足,提出"多语义空间引导+通道语义差异缓解"的协同方案。通过共享多语义空间注意力(SMSA)提取层级空间信息,配合渐进式通道自注意力(PCSA)缓解语义差异,在保持轻量化的同时提升特征表示能力。应用于目标检测时,能有效增强多尺度目标识别能力;在分割任务中可改善边界精度。该机制可无缝集成到YOLO系列模型,通过代码模块替换实现性能提升而不显著增加计算负担。实验表明SCSA能有效解决密集目标、小目标检测等难题,同时保持模型的高效性。
2025-11-28 19:03:00
973
原创 YOLO12 改进、魔改| 通道与空间注意力模块CASAB,筛选关键特征、抑制冗余信息,提升复杂场景中的检测能力
本文提出CASAB模块以解决计算机视觉中传统特征提取方法的局限性。该模块采用"通道筛选+空间聚焦"的双维度注意力协同机制:通道层面通过池化操作和全连接层生成注意力权重,筛选关键特征通道;空间层面利用多种池化方式和深度卷积定位重要区域。实验表明,CASAB在目标检测任务中能提升多尺度目标的定位精度,在图像分割任务中可改善边界模糊问题。将其集成到YOLO系列模型中,可在保持实时性的同时增强小目标和遮挡目标的检测能力。文章详细介绍了CASAB的代码实现方式及其在YOLOv12中的集成步骤。
2025-11-17 09:56:57
1070
原创 YOLO11 改进、魔改| 通道与空间注意力模块CASAB ,通过双维度注意力机制自适应强化关键特征、抑制冗余信息,提升模型对重要特征的捕捉与利用能力
CASAB是一种融合通道与空间注意力的深度学习模型优化方法。针对CNN局限性和Transformer不足,它通过双维度协同机制:在通道维度采用全局池化和全连接层优化特征权重,在空间维度结合多类型池化和深度卷积定位关键区域,最终通过加权融合提升特征表达能力。实验表明,将CASAB集成到YOLOv11中,可显著增强多尺度目标检测能力,有效解决边界模糊和背景干扰问题,同时优化计算效率。该方法通过精准筛选关键特征,为复杂场景下的目标检测和分割任务提供了更高效的特征表达方案。
2025-11-17 09:56:01
1136
原创 YOLO12 改进、魔改|秩增强线性注意力RALA,通过增强 KV 缓冲与输出特征的矩阵秩,增强 YOLO 对小目标、复杂场景目标的识别能力
RALA是一种解决线性注意力低秩问题的新型注意力机制。针对传统线性注意力在视觉任务中空间建模能力不足的缺陷,RALA通过KV缓冲秩增强和输出特征秩增强两个关键模块,在保持线性复杂度的同时提升特征矩阵的秩。KV缓冲模块引入上下文感知权重增强信息多样性,输出特征模块通过通道交互和原始信息调制实现满秩特征表达。实验表明,RALA在目标检测和图像分割任务中能够有效提升细粒度特征建模能力,且计算高效。该机制可集成到YOLO系列模型中,在不显著增加计算负担的情况下增强目标检测性能,特别是对小目标和复杂场景的处理能力。
2025-11-14 09:30:07
1243
原创 YOLO11 改进、魔改| 秩增强线性注意力RALA,秩增强特性能提升 YOLO 对小目标、遮挡目标的特征捕捉能力,优化复杂场景下的检测鲁棒性
本文提出RALA(秩增强线性注意力)机制,针对传统Transformer在视觉任务中的计算效率与性能瓶颈问题。RALA通过KV缓冲秩增强和输出特征秩增强两大模块,结合全局查询权重分配与特征融合策略,在保持线性计算复杂度的同时提升特征表达能力。实验表明,RALA可有效增强目标检测中对复杂场景和小目标的特征捕捉能力,并与YOLO框架高效兼容。文章详细介绍了RALA的原理架构,以及在YOLOv11中的具体实现步骤,包括代码集成和模型配置方法,为视觉任务提供了一种高效且强表达的注意力解决方案。
2025-11-14 09:29:43
987
原创 YOLO11 改进、魔改|四边形注意力机制QA,通过学习自适应的四边形注意力区域,提升对小目标和异形目标的检测性能
视觉Transformer(ViT)在处理高分辨率图像时面临计算复杂度问题,基于窗口的注意力机制虽然降低了复杂度,但固定窗口形状难以适配现实目标的多样性。为此提出的四边形注意力(QA)机制,通过可学习的四边形区域自适应目标形态,支持平移、旋转等变换,并引入正则化稳定训练。QA可无缝集成到YOLO等模型中,在目标检测任务中能精准覆盖不同尺度和姿态的目标,增强对全局特征的建模;在分割任务中更好地处理复杂轮廓和重叠目标。实验表明,将QA集成到YOLOv11后,在保持速度优势的同时提升了检测精度,特别是对小目标和异
2025-11-12 09:34:37
1148
原创 YOLO12 改进、魔改| 四边形注意力机制quadrangle attention (QA),打破固定窗口的局限,精准捕捉异形、多尺度目标特征,提升检测鲁棒性。
视觉Transformer中传统固定窗口注意力机制难以适应复杂目标形态,为此提出Quadrangle Attention(QA)机制。QA通过可学习的四边形窗口实现数据驱动的注意力区域调整,包含基础窗口生成、四边形变换和正则化三大模块,能自适应目标尺度、姿态和形状变化。实验表明,QA在YOLO等目标检测模型中的应用可显著提升对异形、小目标和遮挡目标的识别能力,同时保持计算效率。该方法通过动态窗口调整避免了固定窗口的局限性,为视觉任务提供更灵活的特征建模方案。
2025-11-12 09:29:42
909
原创 YOLO11 改进、魔改| 双聚合注意力融合模块DAAFM, 通过整合模态内自注意力与模态间交叉注意力,提升对小目标、复杂背景下目标的检测能力。
本文提出DAFM双聚合注意力融合模型,通过自注意力(SAB)和交叉注意力(CAIB)机制协同工作,有效解决多模态特征融合中模态内连贯性与模态间互补性的平衡问题。DAFM包含特征投影层、双注意力计算单元和特征融合层,采用负softmax机制突出模态差异信息,通过可学习权重优化特征融合效果。实验表明,将DAFM集成到YOLO目标检测框架中,能显著提升复杂场景下小目标和遮挡目标的检测精度,增强模型泛化能力。文章详细介绍了DAFM的原理结构、在目标检测任务中的应用优势,以及将其嵌入YOLOv11的具体实现步骤和代码
2025-11-11 09:28:33
1103
原创 YOLO12 改进、魔改| 双聚合注意力融合模块DAAFM,通过双注意力协同机制,破解传统融合方法中模态内一致性与模态间互补性难以兼顾的难题,为下游任务提供更精准、全面的特征支撑。
本文提出DAFM双聚合注意力融合模块,用于解决多模态视觉任务中的特征融合难题。传统方法存在模态内特征关联性挖掘不足和模态间差异利用不充分两大瓶颈。DAFM通过自注意力块(SAB)强化模态内特征一致性,采用交叉注意力交互块(CAIB)结合softmin机制挖掘模态间互补信息,并通过动态权重平衡两种注意力输出。实验表明,将DAFM集成到YOLOv12中能显著提升目标检测和图像分割性能,特别是在小目标、遮挡目标等复杂场景下表现优异。文章详细给出了DAFM在YOLOv12中的实现路径,包括代码集成步骤和模型配置文件
2025-11-11 09:27:00
1036
原创 YOLO11 改进、魔改| 细节保留上下文融合模块DPCF,通过动态门控保留小目标、遮挡目标的细节,显著提升这类难点目标的检测精度。
本文提出细节保留上下文融合(DPCF)模块,用于解决计算机视觉多尺度任务中特征融合的难题。该模块通过三层逻辑实现高效融合:1)特征对齐确保维度匹配;2)通道分段与动态门控实现自适应加权融合;3)融合优化消除冗余信息。实验表明,DPCF能有效平衡细节保留与语义整合,在目标检测和图像分割任务中显著提升小目标识别和边界精细度。特别是将DPCF集成到YOLO架构后,既保持了实时检测性能,又改善了FPN固定权重融合的缺陷,在复杂场景中显示出优越性能。
2025-10-31 10:00:43
1147
原创 YOLO12 改进、魔改| 细节保留上下文融合模块DPCF,通过通道分段与空间自适应门控机制,动态平衡高分辨率细节特征与低分辨率语义特征的融合比例,在保留目标精细信息的同时整合全局上下文,提升视觉任务
摘要:本文提出细节保留上下文融合(DPCF)模块,用于解决多尺度特征融合中的关键问题。该模块通过自适应权重分配和细节-语义协同保留机制,动态调节高低分辨率特征的融合比例:在目标边缘等细节区域侧重高分辨率特征,在背景区域强化低分辨率语义特征。在目标检测中可减少小目标细节丢失,在图像分割中能兼顾边界精细度和语义一致性。研究还展示了DPCF与YOLO架构的结合方法,通过改进特征金字塔融合环节提升检测性能,同时保持计算效率。文末提供了代码实现路径和模型配置方法。
2025-10-31 10:00:22
1086
原创 带你轻松搞懂:YOLO如何计算COCO指标(含大中小目标分析)
本文介绍了如何从YOLO模型出发,通过三个步骤计算目标检测任务中不同尺度目标的评估指标(mAP和AR)。首先使用YOLO模型验证并生成预测结果文件(predictions.json);然后将YOLO格式的标签转换为COCO标准格式;最后利用COCOAPI计算大、中、小目标的专项评估指标。文中提供了完整的代码实现,包括YOLO标签到COCO格式的转换脚本和评估脚本,能够输出IoU=0.5阈值下不同尺寸目标的AP和AR值,以及完整的评估指标汇总。该方法可以帮助研究者更全面地展示模型在多尺度目标上的检测性能。
2025-10-29 09:07:58
1050
1
原创 YOLO12 改进、魔改| 跨通道状态空间交互模块CSI 以线性计算复杂度实现全局上下文依赖建模与跨通道特征高效交互,提升模型对目标的判别能力与对复杂背景的抗干扰能力。
本文提出Cross-Channel State-Space Interaction (CSI)模块,用于解决计算机视觉任务中全局上下文建模与跨通道特征交互的难题。CSI结合状态空间模型的高效序列处理能力和跨通道特征重组机制,在保持线性计算复杂度的同时增强特征表达能力。在目标检测中,CSI能有效捕捉长距离依赖关系并提升小目标检测精度;在图像分割中,可优化边界精细度并保持高分辨率特征。研究还展示了将CSI集成到YOLO架构的具体实现方案,通过代码级改进强化特征金字塔的通道互补性,在保证实时性的同时提升检测性能。
2025-10-28 09:11:43
945
原创 YOLO11 改进、魔改| 跨通道状态空间交互模块CSI,以线性计算复杂度实现全局上下文依赖建模与跨通道特征高效融合,提升对复杂场景下小目标、遮挡目标的检测精度。
计算机视觉领域面临全局建模与计算效率的平衡难题。传统CNN无法捕捉远距离像素关联,而Transformer虽能建模全局依赖但计算复杂。VisionMamba等状态空间模型(SSM)通过线性复杂度序列建模提供新思路,但存在通道信息割裂问题。为此提出的跨通道状态空间交互(CSI)模块,通过分段式状态空间编码和跨通道特征重组,实现高效全局建模与通道信息融合。在目标检测中提升小目标和遮挡目标的识别能力,在图像分割中优化边界精细度。该模块可融入YOLO架构,弥补局部视野局限,增强特征关联性,保持实时性能。文章详细介绍
2025-10-28 09:08:44
1105
原创 YOLO12 改进、魔改| Volumetric Self-Attention 体积自注意力,减少因目标与背景空间相似导致的漏检(如小目标、低对比度目标)
本文提出Volumetric Self-Attention(VolSA)机制,解决传统注意力在三维数据处理中的维度割裂和复杂度问题。VolSA通过双分支投影(空间/通道)和多头融合,实现跨维度关联特征提取,计算复杂度仅二次级增长。在目标检测中,VolSA能区分空间相似但通道特征不同的目标;在分割任务中,可提升像素级分类准确性。文章详细介绍了将VolSA集成到YOLOv12的具体代码实现步骤,包括模型配置、文件修改和训练方法,使其在保持实时性的同时提升检测精度。
2025-10-24 09:18:46
801
原创 YOLO11 改进、魔改| 体积自注意力Volumetric Self-Attention,增强 YOLO 对小目标、遮挡目标的特征捕捉能力
本文提出Volumetric Self-Attention(VolSA)方法,用于解决高光谱图像处理中传统自注意力机制的局限性。VolSA通过双维度投影和交叉协方差计算,在三维图像立方体中建立全局关联,将计算复杂度从立方降至二次。该方法创新性地融入了光谱位置先验,通过双向衰减矩阵增强相近波长通道的注意力权重,更符合高光谱数据特性。在目标检测和分割任务中,VolSA能有效结合空间与通道信息,提升复杂场景下的特征区分度。文章还详细介绍了将VolSA集成到YOLOv11模型的具体实现步骤,包括代码修改和配置文件调
2025-10-24 09:18:01
1114
原创 YOLO11 改进、魔改| 掩码注意力Mask Attention 通过可学习或动态计算的掩码矩阵,在自注意力机制中选择性地强化图像关键区域特征、抑制无关背景信息,提高检测精度
摘要:MaskAttention是一种新型注意力机制,通过在自注意力中引入可学习掩码矩阵,有效平衡CNN的局部特征提取和Transformer的全局建模能力。其核心原理是利用掩码矩阵抑制无关区域,聚焦关键信息,同时降低计算复杂度。在目标检测和图像分割任务中,MaskAttention能提升小目标检测精度、增强遮挡处理能力,并保持细粒度细节。该机制可集成到YOLO系列模型中,通过代码修改实现性能优化,在保持实时性的同时提高复杂场景下的检测效果。
2025-10-20 09:01:23
1076
原创 YOLO12 改进、魔改| 掩码注意力Mask Attention,通过可学习或动态计算的掩码矩阵,选择性强化图像关键区域特征、抑制无关背景信息,提高遮挡、小目标的检测能力
摘要:针对低分辨率图像分割中传统模型的局限性,研究提出MaskAttention机制以平衡局部特征提取、全局上下文建模与计算效率。该机制通过多头掩码自注意力模块实现多尺度特征关注,结合残差连接和前馈网络保留细节信息。实验表明,MaskAttention能有效提升小目标检测精度,减少漏检误检,并降低计算复杂度。将其集成至YOLO模型可增强复杂场景下的检测鲁棒性,同时保持实时性优势。论文详细介绍了模型改进方法及代码实现路径,为资源受限场景下的目标检测任务提供了新解决方案。
2025-10-20 09:01:19
1053
原创 YOLO11 改进、魔改|防御性细化模块DRM,提高背景、噪声的干扰,补充丢失的特征信息,提高小目标 遮挡的检测能力
本文提出一种防御性细化模块(DRM)用于增强红外与可见光图像融合网络的鲁棒性。该模块通过特征投影、Pearson相关分析和优化的自注意力机制,有效过滤对抗性扰动并补充特征细节,将计算复杂度从O(N²)降至O(N)。实验表明,DRM在目标检测中能提升小目标识别精度,在分割任务中可改善边界清晰度。研究还详细介绍了将DRM集成到YOLOv11模型的具体实现步骤,包括代码修改、配置文件调整等,为提升视觉任务在对抗环境下的性能提供了有效解决方案。
2025-10-17 09:09:57
1294
原创 YOLO12 改进、魔改|防御性细化模块DRM,解决CNN在提取特征过程中存在的特征丢失的问题和背景、噪声干扰的问题,帮助 YOLO 更精准识别小目标或特征不明显的目标
摘要:本文提出防御性细化模块(DRM)解决红外与可见光图像融合的两大痛点:对抗性扰动敏感和U-Net架构特征丢失问题。DRM通过多轮采样与残差操作过滤噪声,结合改进的自注意力机制(计算复杂度O(N))增强特征完整性。实验表明,DRM可提升YOLO等模型在对抗环境下的鲁棒性,有效还原小目标和边缘细节,在检测与分割任务中分别提高精度6.2%和mIoU 4.8%。代码实现上,通过修改YOLOv12的模型配置文件集成DRM模块,验证了其部署可行性。
2025-10-17 09:09:39
1083
原创 YOLO12 改进、魔改|跨视图交互模块CVIM,解决跨视图信息交互效率低、参数冗余问题,减少小目标与遮挡目标的漏检率
本文提出CVIM(跨视图交互模块)来解决立体图像超分辨率中跨视图信息交互的冗余问题。该模块基于缩放点积注意力机制,通过特征转换、注意力计算和特征融合三个核心层实现高效的跨视图信息互补。CVIM采用通道分离策略降低计算复杂度,可适配轻量化网络需求。实验表明,CVIM在目标检测和分割任务中能有效提升性能:在YOLO模型中替换Concat层后,能减少小目标和遮挡目标的漏检率,同时保持实时检测速度。文章还详细介绍了CVIM在YOLOv12中的实现步骤,包括核心代码结构、模型配置和训练流程。
2025-10-16 09:07:14
782
原创 YOLO11 改进、魔改| 跨视图交互模块CVIM,它的核心作用是以轻量化方式实现不同特征图之间的精准信息交互与融合,提升复杂场景下的检测精度
本文提出了一种改进的红外与可见光图像融合方法CVIM,通过防御性细化模块(DRM)增强U-Net架构的鲁棒性。该方法采用"注意力引导的双向信息互补"机制:1)通过特征转换生成Q/K/V矩阵;2)利用注意力权重筛选跨视图信息;3)残差连接实现特征融合。实验表明,CVIM能有效提升对抗性扰动下的融合质量,在目标检测和图像分割任务中表现优异,尤其适用于遮挡场景和边缘设备部署。文章还详细介绍了CVIM与YOLO系列模型的集成方法,包括代码修改步骤和配置文件调整。
2025-10-16 09:06:54
1186
原创 YOLO12 改进、魔改|多极注意力神经算子MANO 通过多尺度分层注意力机制,以线性复杂度实现全局感知与局部细节的高效融合
MANO是一种新型的注意力机制,旨在解决传统Transformer在视觉任务中的高计算复杂度问题。它借鉴了多体模拟中的快速多极方法,通过多级特征金字塔和局部窗口注意力实现线性复杂度计算。MANO能够同时捕捉局部细节和全局上下文,适用于目标检测和语义分割等任务。文章还详细介绍了将MANO集成到YOLOv12模型中的具体步骤,包括代码修改、模型配置和训练方法。这种改进可以增强多尺度特征融合能力,提升对小目标和复杂场景的检测性能,同时保持计算效率。
2025-10-11 10:28:16
985
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅