YOLOv12模型系列
文章平均质量分 94
这是我YOLOv12模型的改进系列,大家可以根据自己的需求添加模块,提高精度
一勺汤
论文辅导,代码改进,联系v:17329949407
购买资源 截屏加群:3671595590
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
YOLOv12 改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、复杂环境、噪声等问题!
在 YOLO 系列一路狂飙之后,YOLOv12 带来了令人耳目一新的范式转变——它不再以 CNN 为绝对核心,而是首次,在保证实时性的前提下,将检测精度再次推向新高度!为了进一步探索其性能潜力,我在 YOLOv12 的基础上进行了系统性改进与重构,涉及特征提取、注意力机制、特征融合、结构连接、检测头设计等多个维度,总计超过一百多种优化点。本专栏将对这些模块进行逐一拆解与分享。原创 2025-04-26 00:07:29 · 5096 阅读 · 0 评论
-
YOLO12 改进、魔改| 通道与空间注意力模块CASAB,筛选关键特征、抑制冗余信息,提升复杂场景中的检测能力
本文提出CASAB模块以解决计算机视觉中传统特征提取方法的局限性。该模块采用"通道筛选+空间聚焦"的双维度注意力协同机制:通道层面通过池化操作和全连接层生成注意力权重,筛选关键特征通道;空间层面利用多种池化方式和深度卷积定位重要区域。实验表明,CASAB在目标检测任务中能提升多尺度目标的定位精度,在图像分割任务中可改善边界模糊问题。将其集成到YOLO系列模型中,可在保持实时性的同时增强小目标和遮挡目标的检测能力。文章详细介绍了CASAB的代码实现方式及其在YOLOv12中的集成步骤。原创 2025-11-17 09:56:57 · 920 阅读 · 0 评论 -
YOLO12 改进、魔改|秩增强线性注意力RALA,通过增强 KV 缓冲与输出特征的矩阵秩,增强 YOLO 对小目标、复杂场景目标的识别能力
RALA是一种解决线性注意力低秩问题的新型注意力机制。针对传统线性注意力在视觉任务中空间建模能力不足的缺陷,RALA通过KV缓冲秩增强和输出特征秩增强两个关键模块,在保持线性复杂度的同时提升特征矩阵的秩。KV缓冲模块引入上下文感知权重增强信息多样性,输出特征模块通过通道交互和原始信息调制实现满秩特征表达。实验表明,RALA在目标检测和图像分割任务中能够有效提升细粒度特征建模能力,且计算高效。该机制可集成到YOLO系列模型中,在不显著增加计算负担的情况下增强目标检测性能,特别是对小目标和复杂场景的处理能力。原创 2025-11-14 09:30:07 · 1123 阅读 · 0 评论 -
YOLO12 改进、魔改| 四边形注意力机制quadrangle attention (QA),打破固定窗口的局限,精准捕捉异形、多尺度目标特征,提升检测鲁棒性。
视觉Transformer中传统固定窗口注意力机制难以适应复杂目标形态,为此提出Quadrangle Attention(QA)机制。QA通过可学习的四边形窗口实现数据驱动的注意力区域调整,包含基础窗口生成、四边形变换和正则化三大模块,能自适应目标尺度、姿态和形状变化。实验表明,QA在YOLO等目标检测模型中的应用可显著提升对异形、小目标和遮挡目标的识别能力,同时保持计算效率。该方法通过动态窗口调整避免了固定窗口的局限性,为视觉任务提供更灵活的特征建模方案。原创 2025-11-12 09:29:42 · 843 阅读 · 0 评论 -
YOLO12 改进、魔改| 双聚合注意力融合模块DAAFM,通过双注意力协同机制,破解传统融合方法中模态内一致性与模态间互补性难以兼顾的难题,为下游任务提供更精准、全面的特征支撑。
本文提出DAFM双聚合注意力融合模块,用于解决多模态视觉任务中的特征融合难题。传统方法存在模态内特征关联性挖掘不足和模态间差异利用不充分两大瓶颈。DAFM通过自注意力块(SAB)强化模态内特征一致性,采用交叉注意力交互块(CAIB)结合softmin机制挖掘模态间互补信息,并通过动态权重平衡两种注意力输出。实验表明,将DAFM集成到YOLOv12中能显著提升目标检测和图像分割性能,特别是在小目标、遮挡目标等复杂场景下表现优异。文章详细给出了DAFM在YOLOv12中的实现路径,包括代码集成步骤和模型配置文件原创 2025-11-11 09:27:00 · 936 阅读 · 0 评论 -
YOLO12 改进、魔改| 细节保留上下文融合模块DPCF,通过通道分段与空间自适应门控机制,动态平衡高分辨率细节特征与低分辨率语义特征的融合比例,在保留目标精细信息的同时整合全局上下文,提升视觉任务
摘要:本文提出细节保留上下文融合(DPCF)模块,用于解决多尺度特征融合中的关键问题。该模块通过自适应权重分配和细节-语义协同保留机制,动态调节高低分辨率特征的融合比例:在目标边缘等细节区域侧重高分辨率特征,在背景区域强化低分辨率语义特征。在目标检测中可减少小目标细节丢失,在图像分割中能兼顾边界精细度和语义一致性。研究还展示了DPCF与YOLO架构的结合方法,通过改进特征金字塔融合环节提升检测性能,同时保持计算效率。文末提供了代码实现路径和模型配置方法。原创 2025-10-31 10:00:22 · 876 阅读 · 0 评论 -
YOLO12 改进、魔改| 跨通道状态空间交互模块CSI 以线性计算复杂度实现全局上下文依赖建模与跨通道特征高效交互,提升模型对目标的判别能力与对复杂背景的抗干扰能力。
本文提出Cross-Channel State-Space Interaction (CSI)模块,用于解决计算机视觉任务中全局上下文建模与跨通道特征交互的难题。CSI结合状态空间模型的高效序列处理能力和跨通道特征重组机制,在保持线性计算复杂度的同时增强特征表达能力。在目标检测中,CSI能有效捕捉长距离依赖关系并提升小目标检测精度;在图像分割中,可优化边界精细度并保持高分辨率特征。研究还展示了将CSI集成到YOLO架构的具体实现方案,通过代码级改进强化特征金字塔的通道互补性,在保证实时性的同时提升检测性能。原创 2025-10-28 09:11:43 · 882 阅读 · 0 评论 -
YOLO12 改进、魔改| Volumetric Self-Attention 体积自注意力,减少因目标与背景空间相似导致的漏检(如小目标、低对比度目标)
本文提出Volumetric Self-Attention(VolSA)机制,解决传统注意力在三维数据处理中的维度割裂和复杂度问题。VolSA通过双分支投影(空间/通道)和多头融合,实现跨维度关联特征提取,计算复杂度仅二次级增长。在目标检测中,VolSA能区分空间相似但通道特征不同的目标;在分割任务中,可提升像素级分类准确性。文章详细介绍了将VolSA集成到YOLOv12的具体代码实现步骤,包括模型配置、文件修改和训练方法,使其在保持实时性的同时提升检测精度。原创 2025-10-24 09:18:46 · 746 阅读 · 0 评论 -
YOLO12 改进、魔改| 掩码注意力Mask Attention,通过可学习或动态计算的掩码矩阵,选择性强化图像关键区域特征、抑制无关背景信息,提高遮挡、小目标的检测能力
摘要:针对低分辨率图像分割中传统模型的局限性,研究提出MaskAttention机制以平衡局部特征提取、全局上下文建模与计算效率。该机制通过多头掩码自注意力模块实现多尺度特征关注,结合残差连接和前馈网络保留细节信息。实验表明,MaskAttention能有效提升小目标检测精度,减少漏检误检,并降低计算复杂度。将其集成至YOLO模型可增强复杂场景下的检测鲁棒性,同时保持实时性优势。论文详细介绍了模型改进方法及代码实现路径,为资源受限场景下的目标检测任务提供了新解决方案。原创 2025-10-20 09:01:19 · 956 阅读 · 0 评论 -
YOLO12 改进、魔改|防御性细化模块DRM,解决CNN在提取特征过程中存在的特征丢失的问题和背景、噪声干扰的问题,帮助 YOLO 更精准识别小目标或特征不明显的目标
摘要:本文提出防御性细化模块(DRM)解决红外与可见光图像融合的两大痛点:对抗性扰动敏感和U-Net架构特征丢失问题。DRM通过多轮采样与残差操作过滤噪声,结合改进的自注意力机制(计算复杂度O(N))增强特征完整性。实验表明,DRM可提升YOLO等模型在对抗环境下的鲁棒性,有效还原小目标和边缘细节,在检测与分割任务中分别提高精度6.2%和mIoU 4.8%。代码实现上,通过修改YOLOv12的模型配置文件集成DRM模块,验证了其部署可行性。原创 2025-10-17 09:09:39 · 1037 阅读 · 0 评论 -
YOLO12 改进、魔改|跨视图交互模块CVIM,解决跨视图信息交互效率低、参数冗余问题,减少小目标与遮挡目标的漏检率
本文提出CVIM(跨视图交互模块)来解决立体图像超分辨率中跨视图信息交互的冗余问题。该模块基于缩放点积注意力机制,通过特征转换、注意力计算和特征融合三个核心层实现高效的跨视图信息互补。CVIM采用通道分离策略降低计算复杂度,可适配轻量化网络需求。实验表明,CVIM在目标检测和分割任务中能有效提升性能:在YOLO模型中替换Concat层后,能减少小目标和遮挡目标的漏检率,同时保持实时检测速度。文章还详细介绍了CVIM在YOLOv12中的实现步骤,包括核心代码结构、模型配置和训练流程。原创 2025-10-16 09:07:14 · 744 阅读 · 0 评论 -
YOLO12 改进、魔改|多极注意力神经算子MANO 通过多尺度分层注意力机制,以线性复杂度实现全局感知与局部细节的高效融合
MANO是一种新型的注意力机制,旨在解决传统Transformer在视觉任务中的高计算复杂度问题。它借鉴了多体模拟中的快速多极方法,通过多级特征金字塔和局部窗口注意力实现线性复杂度计算。MANO能够同时捕捉局部细节和全局上下文,适用于目标检测和语义分割等任务。文章还详细介绍了将MANO集成到YOLOv12模型中的具体步骤,包括代码修改、模型配置和训练方法。这种改进可以增强多尺度特征融合能力,提升对小目标和复杂场景的检测性能,同时保持计算效率。原创 2025-10-11 10:28:16 · 912 阅读 · 0 评论 -
YOLO12 改进、魔改|双坐标注意力特征提取模块DCAFE,通过并行坐标注意力路径提取具有空间位置感知能力的多层次特征,显著提升模型在复杂场景下的识别精度。
DCAFE模块创新性地提出双路径并行架构,通过平均池化和最大池化的互补设计,显著提升了复杂背景下的目标识别能力。该模块结合坐标注意力机制,能同时捕捉全局上下文和局部细节特征,有效解决传统注意力机制在长距离依赖和敏感特征建模上的不足。实验表明,DCAFE在YOLO等目标检测框架中表现出色,尤其提升了小目标和密集目标的检测精度,且计算效率高,适合实时应用。具体实现方法包括模型架构修改和配置文件调整,相关代码已在GitHub开源。原创 2025-09-24 09:21:40 · 1009 阅读 · 0 评论 -
YOLO12 改进、魔改|分组残差自注意力GRSA,通过分组残差和指数位置偏置设计,以更低计算成本实现更优的特征表示能力,适用于轻量级视觉任务,提高密集目标检测能力
本文提出了一种新型分组残差自注意力机制GRSA,用于解决单图像超分辨率任务中Transformer计算复杂度过高的问题。GRSA通过分组残差线性层(GRL)和指数空间位置编码(ES-RPB)两大创新,在保持性能的同时显著降低参数量。GRL将输入特征分组处理并引入残差连接,有效减少60%参数;ES-RPB采用指数衰减曲线增强邻近像素关联,提升位置编码效率。实验表明,该方法在Urban100数据集上达到33.17dB PSNR(×2超分),且参数量控制在1M以下,特别适合移动端部署。文章还探讨了GRSA在目标检原创 2025-09-22 09:46:36 · 849 阅读 · 0 评论 -
YOLO12 改进、魔改|感受野聚合器RFA,通过合理组合中小型卷积核来扩展有效感受野,同时保持感受野的渐近高斯分布特性,实现高效的长距离依赖建模。
本文提出了一种创新的感受野聚合器(RFA)方法,用于解决卷积神经网络中大感受野设计的挑战。RFA通过组合较小的卷积核(7×7、9×9、11×11)来扩展感受野,同时保持感受野的渐近高斯分布特性。其核心是三层结构的LayerOperator(LO),包含放大器(Amp)和鉴别器(Dis)两个组件,形成具有AGD的多层感受野结构。在目标检测和语义分割任务中,RFA展现出显著优势:既保持多尺度特征提取能力,又降低了计算开销。研究还展示了如何将RFA集成到YOLO架构中,提升多目标检测性能而不影响实时性。文章提供了原创 2025-09-19 14:36:30 · 1067 阅读 · 0 评论 -
YOLO12 改进、魔改|十字形窗口自注意力CSWin-SA,通过水平和垂直条纹的并行注意力计算,在较低计算成本下实现更全面的空间关系建模,平衡局部细节保留与全局上下文捕获
本文提出CSWin-SA十字形窗口自注意力机制,解决医学图像分割中传统CNN局部特征局限和Transformer计算复杂度高的问题。该方法通过将多头注意力分组并行处理水平和垂直条纹,在保持计算效率的同时增强感受野交互能力。CSWin-SA在目标检测中能有效捕获物体边界特征和空间关系,在图像分割中能保持边缘细节并建模全局空间关系。文章还介绍了将CSWin-SA融入YOLO框架的方法,可提升不规则目标检测性能,并提供了详细的代码实现路径和模型配置步骤。原创 2025-09-18 09:13:52 · 729 阅读 · 0 评论 -
YOLO12 改进、魔改|傅里叶残差通道注意力块(FRCAB),通过频域分析和通道注意力机制,在保持低频语义信息的同时增强高频细节表示,从而提升密集预测任务的性能
本文提出了一种频域通道注意力块(FRCAB)框架,用于解决计算机视觉密集预测任务中的关键挑战。FRCAB创新性地将频域分析与通道注意力机制融合,通过快速傅里叶变换分解特征为振幅和相位成分,采用多级残差连接保留不同频段信息。该方法在目标检测和图像分割任务中表现出显著优势:频域处理增强全局上下文感知,残差结构保持细节特征,特别适合处理多模态数据。文章还详细介绍了将FRCAB集成到YOLO框架的具体实现方案,包括代码结构和配置方法。实验结果表明,该改进能有效提升模型在多尺度目标检测和边缘定位方面的性能。原创 2025-09-17 09:04:34 · 803 阅读 · 0 评论 -
YOLO12 改进、魔改|U形视觉曼巴块UVM-Net Block,通过结合卷积神经网络(CNN)的局部模式识别能力和状态空间序列模型(SSM)的全局上下文理解能力,提高复杂天气下的检测能力
摘要:本文提出UVM-NetBlock模块以解决图像去雾中Transformer计算复杂度高的问题。该创新采用结构化状态空间序列模型(S4)构建Bi-SSM结构,通过通道域特征滚动实现高效长程依赖建模,计算复杂度仅为线性。实验表明,该模块在YOLO等模型中能显著提升雾天目标检测和图像分割性能,尤其改善小目标检测效果,同时保持实时性优势。研究提供了完整的代码实现方案,包括YOLOv12中的集成方法。原创 2025-09-11 08:37:05 · 909 阅读 · 0 评论 -
YOLO12 改进、魔改|通道自注意力卷积块CSA-ConvBlock,通过动态建模特征图通道间的依赖关系,优化通道权重分配,在强化有效特征、抑制冗余信息
摘要:针对传统CNN在太阳暗条分割任务中存在的空间信息丢失和通道间依赖关系建模不足问题,研究提出了一种轻量化的通道自注意力卷积块(CSA-ConvBlock)。该模块通过无偏卷积生成查询、键和值特征图,利用相似度计算和Softmax激活动态分配通道权重,结合残差连接保留空间细节。实验表明,CSA-ConvBlock可有效提升YOLO等模型对不规则目标的检测精度,在保持实时性的同时降低计算资源消耗,适用于天基观测设备等资源受限场景。研究还提供了将模块集成到YOLOv12的具体代码实现方案。原创 2025-09-08 23:28:59 · 1118 阅读 · 0 评论 -
YOLO12 改进、魔改|深度反向卷积Converse2D,通过非迭代的正则化优化实现特征精确恢复,增强特征上采样,减少特征丢失
本文提出Converse2D算子,构建深度卷积的数学逆运算,解决传统转置卷积的非逆运算问题。Converse2D将卷积逆问题转化为正则化最小二乘优化,通过FFT推导闭式解实现高效非迭代计算,并集成可学习参数优化性能。该算子能精准恢复下采样丢失的细节,在目标检测和图像分割中展现优势:提升小目标检测精度,减少特征模糊;增强分割边界重建,避免伪影。结合YOLO框架时,其高效计算适配实时需求,多尺度特征恢复能力提升检测效果。文章详细介绍了Converse2D的原理设计、应用优势及YOLOv12集成方法。原创 2025-08-26 08:35:58 · 882 阅读 · 0 评论 -
YOLO12 改进、魔改|边缘 - 高斯聚合EGA模块,增强低质量图像,识别目标边缘,抑制背景噪声干扰,提升小目标检测能力
摘要:EGA(边缘-高斯聚合)模块针对低质量图像检测问题,结合Scharr滤波器的高频边缘提取与高斯卷积的噪声抑制能力,实现阶段自适应特征增强。该模块通过动态切换边缘提取(浅层)与高斯建模(深层)操作,配合三级卷积融合机制,显著提升遥感、医学等低质量图像的目标检测与分割性能。实验表明,EGA在YOLO框架中能有效增强小目标识别,抑制背景干扰,且计算开销低,为复杂场景下的视觉任务提供了轻量化解决方案。代码已集成至YOLOv12等开源项目。原创 2025-08-22 09:12:38 · 1195 阅读 · 0 评论 -
YOLO12 改进、魔改|高效多尺度注意力模块EMA(Efficient Multi - Scale At),提高多尺度目标的检测能力
摘要:EMA(高效多尺度注意力模块)是一种改进的注意力机制,针对传统注意力模块(如SE、CBAM)存在的计算开销大和通道降维问题。EMA通过特征分组策略避免维度缩减,采用1x1和3x3卷积并行分支分别捕捉短程和长程依赖,并通过跨空间学习融合多尺度特征。该方法在目标检测和分割任务中表现出色,能提升多尺度目标适应性和像素级精度。EMA可轻松嵌入YOLO等网络,以较少计算量显著提升性能。代码实现包括模型配置修改和训练流程调整,适用于YOLOv12等框架的改进。原创 2025-08-22 09:11:30 · 1586 阅读 · 0 评论 -
YOLO12 改进、魔改|融合傅里叶卷积混合器FFCM ,强复杂场景下对模糊、小目标或遮挡目标的特征表达
摘要:本文提出频域特征融合模块FFCM,通过离散傅里叶变换实现图像去雨任务中的退化成分分离。FFCM结合空间域多尺度特征提取与频域全局建模,有效捕捉雨条纹的频域特征特性。实验表明,该方法在检测领域能增强小目标特征表达,在分割领域可提升边界识别精度。同时,将FFCM集成到YOLOv12中,通过空间-频域协同操作优化了复杂场景下的目标检测性能。研究为频域方法在计算机视觉任务中的应用提供了新思路,代码已开源。原创 2025-08-21 08:28:11 · 1413 阅读 · 0 评论 -
YOLO12 改进、魔改|上下文聚合聚焦模块Focal Modulation,采用 “先聚合后交互” 的策略,通过线性注意力机制提高小目标检测能力
FocalModulation是一种新型视觉token交互机制,针对自注意力(SA)二次复杂度问题提出改进。其核心采用"先聚合后交互"策略:通过多尺度深度卷积实现层级上下文聚合,再用门控机制生成调制器,最后与查询token进行元素级交互。这种设计将复杂度从二次降至线性,同时保留了输入依赖特性。在目标检测中,FocalModulation能高效捕捉多尺度特征,增强复杂场景的检测能力;在分割任务上,其像素级精细建模和全局语义一致性表现突出。与YOLO系列结合时,既能保持实时性优势,又能提升多原创 2025-08-21 08:26:52 · 1233 阅读 · 0 评论 -
YOLO12 改进、魔改|特征精炼前馈网络FRFN 通过增强有效特征并抑制通道冗余,优化特征表示质量,为各类视觉任务(如恢复、检测、分割)提供更纯净、更具判别性的特征输入,从而提升模型的性能与效率。
本文提出了一种特征精炼前馈网络(FRFN)来提升Transformer图像恢复模型的性能。FRFN采用"增强-简化"机制:通过部分卷积和深度卷积强化关键特征,同时利用门控机制抑制冗余通道信息。该设计在通道维度实现了特征优化,既保留了细粒度特征又降低了计算负担。实验表明,FRFN在目标检测和图像分割任务中显著提升了特征判别性,尤其在处理复杂背景和小目标时效果突出。作者还展示了将FRFN轻量化地嵌入YOLO模型的方法,在不影响实时性的情况下提高了检测精度。代码实现方案详细说明了模型集成步骤,原创 2025-08-17 10:04:00 · 1035 阅读 · 0 评论 -
YOLO12 改进、魔改|频域自注意力求解器FSAS,通过频域高效计算自注意力,在降低时间与空间复杂度的同时保留关键特征信息,提升遮挡、小目标检测
FSAS是一种基于频域的自注意力机制,通过快速傅里叶变换将传统空间域O(N²)复杂度的注意力计算转换为频域O(NlogN)运算。该方法将查询和键特征转换到频域进行元素乘积计算相关性,再逆变换回空间域生成注意力图,显著降低了高分辨率图像处理的计算成本。FSAS能同时保留图像的高频(细节)和低频(全局)信息,在目标检测和图像分割任务中表现优异,尤其适合与YOLO系列模型结合提升小目标和遮挡场景的检测精度。论文还提供了将FSAS集成到YOLOv12的具体代码实现方案。原创 2025-08-17 10:03:43 · 933 阅读 · 0 评论 -
YOLO12 改进、魔改|幅度感知线性注意力MALA,提升小目标、遮挡的检测能力
摘要:针对Transformer中SoftmaxAttention计算复杂度高的问题,研究者提出LinearAttention降低复杂度至O(N),但其性能下降明显,主要原因是忽略了Query幅度信息。为此,MALA(Magnitude-Aware Linear Attention)被提出,通过引入缩放因子和偏移项,使注意力分布随Query幅度变化更接近SoftmaxAttention但更平衡。MALA在目标检测和分割任务中表现出色,能兼顾全局与局部特征,提升多尺度目标识别能力。将其与YOLO结合,可在保持原创 2025-08-15 09:31:21 · 801 阅读 · 0 评论 -
YOLO12 改进、魔改|多分支重参数化卷积MBRConv,通过训练时多分支协同捕捉多尺度特征、推理时重参数化为单分支的策略,在轻量化模型中实现高效计算与强特征表达的平衡。
MBRConv:动态多分支卷积实现轻量化模型的高效特征提取 摘要:MBRConv通过"训练多分支+推理单分支"的创新设计,解决了轻量化模型中特征提取能力与计算效率的矛盾。训练阶段采用1×1卷积、3×3卷积(可调空洞率)和深度可分离卷积等多分支结构,增强多尺度特征捕捉能力;推理时通过数学融合为单3×3卷积,保持高效计算。在目标检测中,该结构能精准识别多尺度目标;在图像分割中可保持边缘细腻度与区域一致性。实验表明,将MBRConv引入YOLOv12后,在不增加推理延迟的前提下显著提升了小目标原创 2025-08-14 09:01:56 · 872 阅读 · 0 评论 -
YOLO12 改进、魔改|层次化双路径注意力机制HDPA,通过融合全局与局部特征的注意力权重,精准捕捉不同尺度的关键信息
摘要: 针对移动端视觉任务中全局与局部特征难以兼顾的问题,提出轻量化HDPA注意力机制,通过层次化双路径设计(局部方卷积+方向条形卷积)实现高效特征融合。该结构在YOLOv12中验证,能精准提取高纵横比目标的纵横方向特征,提升检测与分割的细节精度,同时保持计算效率。实验表明,HDPA通过顺序条形卷积减少冗余计算,增强细长目标识别能力,为资源受限场景提供平衡性能与效率的解决方案。代码集成步骤包括模块嵌入、配置文件修改及多尺度频率辅助优化。原创 2025-08-13 08:40:48 · 1213 阅读 · 0 评论 -
YOLO12 改进、魔改|光晕注意力HaloAttention ,通过优化局部自注意力的计算逻辑与结构,提升视觉模型对长距离特征依赖的捕捉能力,适配多尺度视觉任务。
《HaloAttention:视觉任务中的高效自注意力机制及其YOLO应用》 摘要:HaloAttention是一种改进的局部自注意力机制,通过块划分和光晕区域扩展优化计算效率与感受野。相比传统卷积神经网络,它具有内容自适应特征聚合、参数无关的感受野扩展等优势。在目标检测中,HaloAttention能精准处理遮挡场景和多尺度目标;在分割任务中可兼顾全局结构和细节特征。研究还展示了将HaloAttention整合到YOLOv12中的具体方法,包括核心代码实现、模型配置修改等步骤,为提升检测性能提供新思路。该原创 2025-08-08 10:20:24 · 779 阅读 · 0 评论 -
YOLO12 改进、魔改|门控瓶颈卷积GBC,通过低秩近似与门控机制的结合,增强模型对目标形态与纹理特征的捕捉能力
摘要: 针对传统卷积在高分辨率图像处理中的计算复杂度问题,本文提出轻量级门控瓶颈卷积(GBC),结合低秩近似与门控机制优化特征提取。通过瓶颈卷积压缩特征维度降低计算量,并利用门控动态增强关键特征(如裂纹边缘),抑制噪声。实验表明,GBC在目标检测与分割任务中兼顾精度与效率,尤其适合资源受限场景。将其嵌入YOLOv12后,模型参数减少,推理速度提升,同时通过门控机制强化小目标检测能力。代码实现步骤包括模块集成、配置文件修改及训练流程适配,为轻量化视觉任务提供了可行方案。原创 2025-08-08 10:20:06 · 1305 阅读 · 0 评论 -
YOLO11 改进、魔改|StripNet 骨干网络基本块,通过融合局部特征与方向特征,高效捕捉不同纵横比物体的特征,增强复杂场景(如遥感)下的特征表示能力,提升后续检测或分割任务的性能。
文章摘要:针对遥感目标检测中高纵横比物体检测的难题,本文提出StripNet基本块结构,创新性地结合小方形卷积和大条形卷积的优势。该设计通过"局部捕捉-方向增强-通道融合"流程,有效提升对桥梁、船舶等细长目标的特征提取能力,同时减少计算冗余。实验表明,该方法可增强YOLO等模型对高纵横比物体的检测精度,在保持实时性的同时提升分割边缘细节。文章详细介绍了StripNet的技术原理、在YOLOv12中的实现步骤,包括模型结构修改、配置文件调整等具体实施方案。原创 2025-08-06 09:59:01 · 3687 阅读 · 0 评论 -
YOLO12 改进、魔改|多尺度线性注意力MSLA ,通过融合多尺度局部特征与线性自注意力机制,提高小目标、多尺度目标的检测 分割能力
本文提出了一种多尺度线性注意力机制(MSLA),旨在解决卷积神经网络(CNN)和Transformer在视觉任务中的固有缺陷。MSLA通过并行多尺度卷积分支提取局部特征,结合线性注意力机制实现高效全局建模,最后融合多尺度特征输出。该方法在目标检测中能有效处理多尺度目标,在分割任务中可同时保留细节和语义信息。文章还介绍了将MSLA集成到YOLOv12模型的具体实现步骤,包括核心代码结构、模型配置及训练方法,在保持实时性的同时提升了复杂场景下的检测性能。实验结果表明,MSLA在多尺度视觉任务中具有显著优势。原创 2025-08-05 13:17:54 · 1170 阅读 · 0 评论 -
YOLO12 改进、魔改|双重稀疏选择注意力DSSA ,通过区域和像素两级稀疏筛选,在降低计算复杂度的同时精准提取关键特征,提升视觉模型对复杂场景的小目标、遮挡检测。
DSSA(DualSparseSelectionAttention)是一种双重稀疏注意力机制,通过区域级和像素级两级筛选策略优化计算机视觉任务。其核心思想是:先通过区域级注意力筛选top-k1关键区域,再通过像素级注意力筛选top-k2关键像素,最后融合局部上下文特征。这一机制显著降低了传统自注意力平方级计算复杂度,同时提升了对关键特征的聚焦能力。在目标检测中,DSSA能快速定位目标区域并捕捉细节;在分割任务中,可兼顾全局语义和精细边界。实验表明,将DSSA集成到YOLO系列模型中,能同时提升检测速度和精度原创 2025-08-04 08:44:36 · 981 阅读 · 0 评论 -
YOLO12 改进、魔改|分层互注意力混合层H-RAMi,通过融合多尺度注意力特征,弥补分层网络的像素级信息丢失,同时利用语义级信息优化特征表示,增强模型对细节与全局上下文的联合建模能力。
摘要:H-RAMi(分层互逆注意力混合)是一种创新网络层,旨在解决分层网络在图像恢复任务中因下采样导致像素级信息丢失的问题。该结构通过整合多尺度注意力特征:1)将不同阶段的D-RAMiT块输出上采样至原始尺寸;2)使用MobiVari层混合多级特征,实现细节与语义信息的互补。实验表明,H-RAMi在目标检测中能增强小目标识别能力,在分割任务中可改善边界精度。将其集成到YOLOv12的方法包括:新建模块、导入核心代码、修改配置文件等步骤,最终通过特征融合提升模型性能而不显著增加计算量。原创 2025-08-03 07:46:25 · 1151 阅读 · 0 评论 -
YOLO12 改进、魔改|IDC模块,通过将大核卷积分解为高效并行的小核与带状核分支,提高多尺度感知能力。
摘要:针对大核卷积网络在GPU上内存访问成本高、吞吐量下降的问题,研究者提出InceptionNeXt模块,通过多分支并行结构(3×3小核、正交带状核和恒等映射)分解大核卷积,在保持大感受野的同时提升计算效率。该方法适用于目标检测和语义分割任务,能平衡全局上下文与局部细节捕捉,并已集成到YOLOv12中,通过改进特征提取结构实现速度与精度的双重提升。具体实现包括代码结构修改、模型配置调整及训练流程优化。(149字)原创 2025-07-31 11:21:14 · 873 阅读 · 0 评论 -
YOLO12 改进、魔改|直方图 Transformerm模块HTB ,通过动态范围特征分组、针对性注意力与多尺度融合,提高对遮挡以及多尺度目标的关注能力
本文提出了一种面向恶劣天气图像恢复的HistogramTransformerBlock(HTB)方法。HTB通过动态范围直方图自注意力(DHSA)机制将特征按强度分组处理,有效捕捉长距离相似退化特征;结合动态范围卷积和双尺度门控前馈网络(DGFF),在保持计算效率的同时提升对雨雪雾等天气干扰的特征提取能力。实验表明,HTB在目标检测和分割任务中能显著改善恶劣天气下的性能,特别是增强了对模糊边界和小目标的识别能力。文章还详细介绍了将HTB集成到YOLOv12模型的具体实现步骤,包括代码修改和配置文件调整方法,原创 2025-07-31 11:20:34 · 816 阅读 · 0 评论 -
YOLO12 改进、魔改|跨范式交互与对齐自注意力CPIA-SA,整合全局 - 局部与空间 - 通道特征,实现跨范式特征的动态对齐与深度融合,提高小目标 遮挡的检测
本文提出了一种跨范式交互与对齐自注意力机制(CPIA-SA),通过整合空间-通道、全局-局部特征提升低层次视觉任务性能。CPIA-SA包含三个核心组件:稀疏提示通道自注意力(SPC-SA)捕捉全局通道依赖,空间像素细化自注意力(SPR-SA)聚焦局部空间细节,以及自适应对齐频率模块(AAFM)实现跨范式特征融合。实验表明,CPIA-SA在目标检测中能增强跨区域目标特征聚合,在图像分割中可提升细粒度结构恢复能力。研究还展示了将CPIA-SA集成到YOLOv12模型的具体实现方案,包括代码结构修改和配置流程,为原创 2025-07-30 10:28:13 · 1044 阅读 · 0 评论 -
YOLO12 改进、魔改|低分辨率自注意力机制LRSA,增强全局上下文建模能力和局部特征,提高小目标和多尺度的检测能力
LRSA:低分辨率自注意力机制助力密集预测任务 摘要:针对密集预测任务中传统Transformer计算复杂度高的问题,本文提出低分辨率自注意力机制(LRSA)。该方案通过将自注意力计算限制在固定低分辨率空间(m×m),显著降低了计算成本,同时采用3×3深度可分离卷积补充局部细节,形成"低分辨率全局建模+高分辨率局部捕捉"的互补机制。实验表明,LRSA在目标检测中能有效区分相似目标,在语义分割中能准确建模场景关系,尤其适合高分辨率输入场景。将其与YOLO系列结合,可在保持实时性的同时提升模原创 2025-07-28 08:29:55 · 987 阅读 · 0 评论 -
YOLO12 改进、魔改|核选择融合注意力机制KSFA,适应融合多尺度空间-图像特征,动态优化感受野,增强模型对不同尺度目标的特征提取能力,减少噪声干扰。
摘要:为解决高光谱图像分类中固定感受野导致的特征提取不足问题,提出Kernel Selective Fusion Attention(KSFA)模块。KSFA通过并行深度可分离卷积提取多尺度特征,结合空间-光谱联合选择机制动态融合特征,自适应匹配不同尺度目标的上下文需求。该模块能有效提升对小目标的细节保留和大目标的全局关联捕捉能力,在YOLOv12等检测模型中表现出优越性能。实验表明,KSFA通过加权融合机制在提升精度的同时保持实时性优势,适用于复杂场景下的多尺度目标识别任务。原创 2025-07-25 08:09:30 · 1188 阅读 · 0 评论
分享