自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(197)
  • 收藏
  • 关注

原创 YOLO12改进-模块-引入动态特征融合模块DFF 增强特征融合,提升多尺度 小目标检测能力

本文提出一种动态特征融合(DFF)模块,用于改进YOLOv12目标检测模型的性能。针对医学图像分割中多尺度特征融合的挑战,DFF通过全局信息自适应地融合多尺度局部特征,采用平均池化、卷积和Sigmoid激活生成空间与通道权重,动态调整特征重要性。该方法被集成到YOLOv12的neck层,替换原有的contact层,具体实现包括代码重构、模型配置文件修改等步骤。实验结果表明,该改进有效提升了模型对多尺度目标的检测能力,为医学图像分析等应用提供了新的技术方案。

2025-06-15 11:34:30 423

原创 YOLO12改进-模块-引入可变形交互注意力模块DIA-Module

本文提出了一种改进的遥感图像融合分类方法DIA-Module,以解决现有方法存在的特征交互不足和信息冗余问题。该模块通过全局平均池化和最大池化获取多模态特征,利用梯度缩放因子调整调制系数进行特征重构,并通过掩码生成实现特征选择与增强。实验将DIA-Module集成到YOLOv12中,改进A2C2f模块,提升了模型对空间信息的表示能力和多尺度目标检测性能。文章详细介绍了模块实现代码的集成步骤,包括模型配置修改、文件路径设置和训练参数调整等关键环节。该方法有效增强了遥感图像分类中的特征交互和空间信息利用。

2025-06-15 11:34:05 462

原创 YOLO12改进-模块-入基于卷积调制ConvMod 提高小目标检测精度

本文提出将Conv2Former的卷积调制块(ConvMod)引入YOLOv12目标检测模型的方法。ConvMod通过深度卷积和哈达玛积简化自注意力机制,兼具局部特征提取和全局信息建模能力。具体实现包括:1)构建ConvMod核心模块;2)在YOLOv12模型配置中集成该模块;3)修改任务处理文件实现模块调用。实验表明,该方法在保持计算效率的同时,有效提升了模型的特征表达能力,为改进目标检测性能提供了新思路。文中详细给出了代码集成路径和配置文件修改方案,具有实践指导价值。

2025-06-14 14:48:02 594

原创 YOLO12改进-模块-引入添加上下文引导模块 ContextGuided

本文探讨将ContextGuided模块集成到YOLOv12目标检测模型的改进方法。ContextGuided是一种轻量级神经网络,通过局部特征提取、膨胀卷积获取上下文信息、特征融合和全局池化等组件,有效提升语义分割性能。将其引入YOLOv12可增强特征表达能力和模型鲁棒性,特别是对小目标检测精度的改善。文章详细介绍了代码实现步骤,包括新建模块、导入包、修改模型配置文件等具体操作,并提供了模型训练代码示例。该改进方案有助于提升YOLOv12在复杂场景下的检测性能,为相关研究提供了实践参考。

2025-06-14 14:40:55 434

原创 YOLO双backbone改进 使用MambaOut 主干替换原backbone

MambaOut提出了一种针对视觉任务的轻量化架构,通过移除Mamba模型的状态空间模型(SSM),仅保留门控CNN块,实现了更高效的视觉特征提取。研究表明,视觉任务主要依赖局部特征和并行计算,而非Mamba的长序列建模优势。MambaOut采用分层门控CNN设计,参数规模减少40%-60%,计算量降低30%以上,在ImageNet分类中性能超越视觉Mamba模型。该架构可轻松集成到YOLO等目标检测框架中,尤其适合短序列和非自回归任务。

2025-06-13 08:32:40 1551

原创 加权卷积算子:基于空间密度函数的 CNN 特征提取优化

本文提出了一种加权卷积算子(WeightedConvolutionOperator),通过引入空间密度函数对传统卷积进行改进,使神经网络能够根据像素与中心位置的距离动态调整权重,从而强化关键区域特征提取。这种轻量化设计在不增加可训练参数的情况下,有效提升了卷积层的空间建模能力。文章详细阐述了加权卷积在医学影像分析、遥感检测、工业缺陷检测和农业监测等领域的应用优势,并提供了将其集成到YOLOv11模型的具体实现方法,包括代码修改和配置步骤。实验结果表明,该算子能显著提升目标检测性能,特别是在小目标和多目标检测

2025-06-10 10:50:19 1955

原创 加权卷积算子WConv通过密度函数对卷积核位置加权,提升特征提取的空间敏感性。

摘要:加权卷积算子(WeightedConvolutionOperator)通过引入空间密度函数改进传统卷积,实现对不同位置像素的差异化加权。该方法能突出图像中心区域的关键特征,抑制边缘干扰,提升模型对空间层次结构的刻画能力,且不增加可训练参数。实验表明,该算子与YOLOv12等模型结合后,在医学影像、遥感检测、工业缺陷识别等场景中显著提升了性能,尤其适用于小目标检测任务。实现上只需简单修改现有CNN架构,保持计算效率的同时兼容主流深度学习框架。

2025-06-10 10:23:56 761

原创 YOLO12 改进|融入 大 - 小卷积LS Convolution 捕获全局上下文与小核分支提取局部细节,提升目标检测中的多尺度

LSConvolution创新性地结合大核稀疏卷积与小核动态卷积,解决目标检测中感受野与计算效率的矛盾问题。大核分支通过深度可分离卷积和空洞卷积扩大感受野,小核分支利用注意力机制增强局部特征提取。该结构通过并联或级联方式融合全局与局部特征,在保持YOLOv12实时性的同时提升检测精度。实现方法包括代码集成、模型配置修改及训练流程调整,为复杂场景下的目标检测提供了高效解决方案。

2025-06-09 09:45:49 912

原创 YOLO11改进-mamba-引入mamba_layer 增强局部细节与全局语义的平衡,提高多尺度 小目标检测能力

本文提出了一种改进YOLOv11目标检测模型的方法,通过引入视觉状态空间模块VSSBlock来增强特征提取能力。VSSBlock基于状态空间模型理论,结合双向扫描机制和多方向特征提取策略,有效解决了传统模型在处理长距离依赖关系时的局限性。该模块通过线性嵌入层、双分支处理(SS2D模块和深度卷积)以及特征融合机制,实现了对图像全局上下文和局部细节的高效建模。实验将VSSBlock集成到YOLOv11的Backbone和Neck部分,显著提升了模型对小目标和复杂背景下物体的检测性能。文章详细介绍了模块实现、代码

2025-06-09 09:45:13 1402

原创 你想发论文,我们提供创新点:YOLOv11在VisDrone数据集上面的改进方案来了

【高效论文写作指南:VisDrone目标检测方案】针对论文时间紧张和缺乏创新点的问题,本专栏提供基于成熟项目的实用模型创新方案,特别聚焦具有挑战性的VisDrone无人机数据集。该数据集包含复杂场景下的高分辨率图像,具有小目标多、遮挡严重等特点。实验数据显示,通过组合优化YOLO11模型(A+B+C方案),检测精度(mAP50)从基准的0.331提升至0.364。专栏内容确保原创性,不公开源码且仅单次使用,有效解决重复造轮子和创新不足的痛点,适用于安防监控等实际场景。

2025-06-06 12:00:09 443

原创 YOLO目标检测模型交互式UI设计与实现

本文介绍了基于Python的YOLO目标检测交互界面实现方案。该系统支持YOLOv5-v12多个版本的目标检测、实例分割、姿态估计和图像分类任务,主要包含登录界面和主功能界面两大部分。主界面提供图片/视频/摄像头检测、批量处理及数据库功能,并允许用户进行权重选择、置信度阈值等参数设置。文章还提供了代码使用指南,建议用户在不改动核心功能的前提下,通过修改UI文件调整界面样式。该项目为学术研究提供了可视化工具支持。

2025-06-05 07:59:29 687

原创 YOLO11改进-mamba-引入 “大视野感知、小焦点聚合” 机制LS convolution 提升复杂场景下多尺度、小目标检测精度

本文提出LSconvolution轻量级视觉模型,其核心创新在于受人类视觉系统启发,将特征提取分解为"大视野感知"和"小焦点聚合"两个阶段。模型采用大内核卷积(7×7)捕获全局上下文信息,同时利用动态小内核卷积(3×3)进行局部精细聚合,通过分组机制和深度可分离卷积保持计算效率。该模块可无缝集成到YOLOv11目标检测框架中,实验表明能有效提升多尺度目标检测性能。文章详细提供了代码集成方案,包括模型配置文件修改、核心模块导入等具体实现步骤,为轻量级视觉模型设计提供了新思路。

2025-06-04 09:25:14 1569

原创 YOLO12 改进|融入 Mamba 架构:插入视觉状态空间模块 VSS Block 的硬核升级

本文提出将视觉状态空间模块VSSBlock引入YOLOv12目标检测框架的改进方案。VSSBlock基于状态空间模型理论,通过二维选择性扫描机制(SS2D)实现线性复杂度的全局特征提取,其双分支结构融合局部细节与全局上下文。改进方法包括:1)在YOLOv12中嵌入VSSBlock以增强多尺度特征表征能力;2)详细代码实现路径(新建模块、导入配置、修改模型文件等);3)实验验证流程(加载预训练权重、调整超参数)。该方法在保持轻量化优势的同时提升了小目标检测精度,相关代码已开源。

2025-06-04 09:24:13 1299

原创 YOLO11改进-mamba-引入 Hybrid Module 提升复制场景下的多尺度 小目标问题,减少噪声

本文提出一种结合Transformer与Mamba的混合模型HybridModule,用于改进YOLOv11目标检测性能。该模型通过Transformer的自注意力机制实现补丁级全局语义理解,同时利用Mamba的线性计算复杂度捕获像素级长程依赖,形成双层次交互学习框架。实验表明,该改进有效提升了小目标检测精度和复杂场景下的上下文关联能力。文章详细介绍了将HybridModule集成到YOLOv11的具体实现步骤,包括代码修改、模型配置和训练流程,为相关研究提供了可复现的技术方案。

2025-06-03 10:13:14 1060

原创 YOLO12 改进|融入 Mamba 架构:插入混合模块Hybrid Module 像素和补丁双层面进行交互学习,提升小目标 多尺度

本文提出了一种改进YOLOv12模型的混合模块HybridModule,融合了Transformer与Mamba的优势。该模块通过空间缩减自注意力(SRSA)实现补丁级全局推理,结合3×3深度卷积增强局部细节;同时利用带位置嵌入的Mamba模块进行像素级长程依赖建模。这种双层次特征交互机制既保持了全局结构理解,又能捕获细粒度特征,尤其提升了密集场景下的检测精度。文章详细说明了该模块在YOLOv12中的实现步骤,包括代码集成、模型配置和训练方法。这种改进方案为提升目标检测性能提供了新思路,相关代码已在GitH

2025-06-03 10:12:35 768

原创 YOLO12改进-模块-引入AFE模块 增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力

在语义分割任务中,复杂场景下的语义线索捕捉是一个挑战。现有方法如CNN和Transformer各有局限:CNN难以建模长距离上下文,Transformer计算成本高且忽视局部细节。混合模型虽结合两者优势,但对复杂场景的处理仍不充分。为此,提出了自适应特征增强模块(AFE),通过大内核卷积扩大感受野,分离并融合高低频特征,增强语义细节。AFE模块包括卷积嵌入、空间上下文模块、特征refinement模块和卷积多层感知机。将AFE引入YOLOv12模型,可提升对复杂场景的特征提取能力,尤其适用于工业检测和医疗影

2025-05-29 09:31:52 1118 1

原创 YOLO12 改进|融入 Mamba 架构:高效视觉状态空间模块 EVSS 模块,模糊图像清晰化与特征增强, 提升小目标 多尺度

本文提出一种结合高效视觉状态空间模块(EVSS)的YOLOv12目标检测改进方法。针对图像去模糊任务中CNN局部性局限和Transformer计算复杂度高的问题,EVSS模块通过几何变换层和选择性扫描机制实现高效长距离依赖建模,同时引入判别频域前馈网络增强特征表达。该模块与YOLOv12结合,有效提升模糊图像下的检测性能,适用于工业质检等动态模糊场景。文中详细提供了代码实现路径和模型配置方法,包括核心代码集成、任务文件修改、配置文件复制等具体步骤,并给出完整的模型训练示例代码。该方法在保持实时推理速度的同时

2025-05-28 07:26:38 1051

原创 YOLO11改进-mamba-引入 高效视觉状态空间模块EVSS 提升复制场景下的多尺度 小目标问题,减少噪声

在图像去模糊等视觉任务中,传统卷积神经网络(CNNs)因局部感受野的限制难以捕捉全局依赖关系,而 Transformer 虽能建模长距离信息,但其二次方计算复杂度却使其在高分辨率图像场景中举步维艰。状态空间模型(SSMs)虽在自然语言处理中以线性复杂度实现长序列建模,但其向视觉领域迁移时面临两大棘手挑战:一是需将二维图像展平为一维序列,这会破坏图像的局部空间关联性,导致空间结构断裂;二是现有方法为弥补空间信息缺失而采用多方向扫描,却带来计算成本的激增,如 VMamba 的计算量可达单方向扫描的 4 倍。EV

2025-05-28 07:25:55 1215

原创 YOLO12改进-mamba-引入视觉状态空间模块VSS Block 高效融合多尺度特征​ 提升复杂场景下目标定位精度与背景区分能力

本文提出了一种改进YOLOv12目标检测模型的方法,通过引入视觉状态空间模块VSSBlock来增强特征提取能力。VSSBlock采用双分支架构,结合卷积网络的局部特征提取和状态空间模型的全局依赖建模优势,有效解决了传统方法在长距离依赖和跨尺度特征融合方面的不足。文章详细说明了将VSSBlock集成到YOLOv12的实现步骤,包括代码修改、模型配置和训练流程,适用于农业籽粒检测等需要同时关注局部细节和全局语义的应用场景。该方法在保持检测速度的同时提升了复杂场景下的目标定位精度。

2025-05-27 07:50:14 721

原创 YOLO11改进-mamba-引入mamba_layer 增强局部细节与全局语义的平衡,提高多尺度 小目标检测能力

本文提出将视觉状态空间模块(VSSBlock)引入YOLOv11目标检测框架,以提升模型性能。VSSBlock结合卷积的局部特征提取能力和Transformer的全局依赖建模,通过双分支结构(含3×3深度卷积和SS2D模块)实现高效特征提取,计算复杂度降至线性水平。实验表明,改进后的YOLOv11在保持实时检测效率的同时,显著增强了对长距离依赖和多尺度特征的捕捉能力。文中详细提供了代码集成步骤,包括模块导入、模型配置修改及训练流程,为相关研究提供了可复现的技术方案。该改进适用于复杂场景下的目标检测任务。

2025-05-27 07:28:28 1202

原创 YOLO12改进-模块-引入风车形卷积(PConv) 增强对红外小目标底层特征的提取能力

本文针对红外小目标检测中传统卷积神经网络(CNN)方法特征提取不足的问题,提出了一种基于高斯空间分布特性的风车形卷积(PConv)模块。PConv通过非对称填充和方向分离的卷积核,模拟目标中心到边缘的像素强度衰减模式,增强了对红外小目标底层特征的提取能力。该模块采用分组卷积和多分支结构,在扩大感受野的同时控制参数增长,实现了轻量化设计。实验表明,将PConv引入YOLOv12模型后,显著提升了红外小目标的检测效果。文章还详细介绍了PConv的代码实现和YOLOv12模型的改进步骤,为相关研究提供了实用参考。

2025-05-26 09:31:04 1050

原创 YOLO12改进-模块-引入Adaptive Sparse Self-Attention (ASSA) 降低噪声,提高小目标或复杂场景下的检测精度。

本文介绍了一种基于Transformer的图像恢复方法——自适应稀疏自注意力机制(ASSA),旨在解决标准自注意力机制在计算复杂度、噪声交互和特征冗余方面的问题。ASSA采用双分支结构,结合稀疏自注意力(SSA)和密集自注意力(DSA),通过平方ReLU激活和Softmax分别实现噪声过滤和全局信息保留,并通过自适应融合机制平衡两者。此外,ASSA被引入YOLOv12模型,以增强特征处理能力,抑制冗余与噪声,并提升长距离依赖建模能力。文章还详细描述了将ASSA集成到YOLOv12中的代码实现步骤,包括模型配

2025-05-26 09:28:31 712

原创 YOLO12改进-Backbone-引入Swin Transformer替换backbone

在计算机视觉领域,卷积神经网络(CNNs)和Transformer架构分别在不同任务中取得了显著成功。受Transformer在自然语言处理中的启发,研究人员将其应用于视觉任务,但面临计算复杂度高等挑战。SwinTransformer通过引入滑动窗口机制和层次化设计,有效降低了计算复杂度,同时保持了Transformer的建模能力。改进后的SwinTransformer结合了移位窗口自注意力和相对位置偏差,进一步提升了模型性能。此外,SwinTransformer与YOLOv12的结合,通过层次化特征图和移

2025-05-23 10:18:27 1914

原创 YOLO12改进-模块-引入CAFM 模块 增强复杂场景中小目标或遮挡目标的检测,减少漏检与误检。

高光谱图像(HSI)去噪中,传统卷积神经网络(CNNs)和Transformer各有优劣,前者擅长局部特征捕捉,后者则能有效建模全局依赖。为结合两者优势,提出了基于卷积与注意力机制的CAFM模型。CAFM通过并行的局部分支和全局分支,分别利用卷积和自注意力机制提取局部细节和全局依赖,并通过残差连接融合两路输出,实现全局与局部特征的协同建模。进一步,将CAFM引入YOLOv12目标检测模型,增强特征表达和多尺度建模能力,提升复杂场景下的目标检测精度。具体实现包括代码集成、模型配置和训练流程的调整,最终通过实验

2025-05-22 12:10:49 963

原创 YOLOv12 双 Backbone 架构:从单路到多径的特征革命,增加你论文的创新点,轻松发SCI

双Backbone架构在实时目标检测领域应运而生,旨在突破传统单Backbone架构的局限性。单Backbone架构如YOLOv12虽在速度和精度上取得平衡,但在特征表达和模态融合方面存在不足,尤其在复杂场景和多尺度目标检测中表现受限。双Backbone架构通过并行特征提取路径,实现多维度信息互补,提升模型性能。其设计包括共享输入型和双输入型,前者通过不同Backbone提取多层次特征并融合,后者处理不同输入源以支持跨模态融合。多元组合策略如CNN+CNN、CNN+Transformer和CNN+Mamba

2025-05-22 11:58:03 1251

原创 YOLO12改进-模块-引入CASelf_Attention模块 提升小目标检测和复杂场景下的定位精度。

视觉Transformer(ViT)在全局上下文信息捕捉上表现优异,但其多头自注意力机制(MSA)存在计算复杂度高、移动端部署困难等问题。为解决这些问题,提出了卷积加法自注意力机制(CASelf_Attention),通过卷积和加法操作替代复杂的矩阵运算,降低计算复杂度至线性级别,同时保留全局建模能力。CASelf_Attention结合了空间和通道注意力分支,通过卷积提取局部空间信息和通道间依赖,最终通过加法融合和线性变换输出。该机制被引入YOLOv12模型,增强了全局上下文建模能力,提升了小目标检测和复

2025-05-21 11:56:02 1016

原创 YOLO11改进-Backbone-引入SwinTransformer_mona替换YOLO backbone

在视觉任务中,预训练模型的微调效率是关键。传统全量微调方法计算成本高且易过拟合,而早期Delta-tuning方法在复杂任务中性能有限。SwinTransformer作为高性能视觉主干网络,其微调效率问题尤为突出。为此,SwinTransformer_mona引入了多认知视觉适配器(Mona),通过多尺度视觉特征认知和输入特征分布优化,以参数高效的方式突破传统微调的性能瓶颈,实现对全量微调的替代。Mona适配器嵌入SwinTransformer的每个Block中,通过多尺度卷积组和输入优化层,增强对复杂场景

2025-05-21 11:53:43 1435

原创 YOLOv8 的双 Backbone 架构:解锁目标检测新性能

在目标检测领域,YOLOv8因其高效和精准而广受欢迎,但传统的单Backbone架构在处理复杂场景时存在局限性,如难以平衡细节特征与宏观语义信息,导致误检或漏检。为应对这些挑战,双Backbone架构成为提升YOLOv8性能的潜在方向。双Backbone架构通过引入两个不同的主干网络,融合多元化的特征信息,增强目标检测能力。具体实现包括共享输入和双输入两种结构,前者通过并行特征提取路径增强模型判别能力,后者则允许处理不同来源的输入,如RGB图像与深度图像结合,提升模型适应性。此外,双Backbone架构的多

2025-05-20 14:49:24 1181 2

原创 YOLO12改进-模块-引入Cascaded Group Attention(CGA)模块 提升小目标检测和复杂场景下的定位精度。

视觉Transformer中的多头自注意力(MHSA)存在计算冗余问题,不同注意力头学习到的特征相似性较高,导致资源浪费。为解决这一问题,提出了CGA(Cascaded Group Attention)方法,通过特征分解和头间级联机制降低冗余并提升计算效率。CGA将输入特征沿通道维度划分为多个子特征,每个注意力头仅处理特定子特征,避免重复计算。同时,前一头的输出与当前头的输入级联,逐步优化特征表示,增强模型对多尺度特征的捕捉能力。CGA还可与YOLOv12结合,提升目标检测性能,尤其适用于小目标检测。具体实

2025-05-20 11:39:33 993

原创 YOLO12改进-模块-引入Convolutional Gated Linear Unit(CGLU)模块 提升小目标检测和复杂场景下的定位精度。

在视觉Transformer(ViT)领域,传统的通道注意力机制如SE(Squeeze-and-Excitation)存在灵活性不足和粒度较粗的问题。ConvolutionalGLU(CGLU)通过结合Gated Linear Unit(GLU)和3×3深度卷积(DWConv),解决了SE机制的局限性。CGLU在门控分支中引入局部特征,避免了全局平均池化的粗粒度问题,同时利用卷积的局部建模能力增强模型对上下文的感知。CGLU结构包含值分支和门控分支,通过动态门控机制调节通道间信息流动,提升模型的鲁棒性和特征

2025-05-20 11:38:24 965

原创 YOLO12改进-模块-引入级联多感受野模块(CMRF)模块 提升多尺度检测能力。

在医学图像分割领域,轻量化模型常因参数和计算量减少而导致特征表达能力不足,影响分割性能。传统多感受野技术虽能提升性能,但增加了模型复杂度,难以兼顾轻量化与高性能。为此,研究团队提出级联多感受野模块(CMRF),通过高效策略融合多尺度特征,平衡模型轻量化与分割精度。CMRF模块利用通道信息冗余,通过深度可分离卷积和逐点卷积挖掘跨通道关联,并采用级联多感受野策略,在单一层内捕获多尺度感受野信息,避免传统并行结构的高计算成本。CMRF模块的结构包括输入处理、线性融合分支、级联卷积分支和特征融合。将CMRF模块插入

2025-05-19 09:38:14 876

原创 YOLO12改进-模块-引入CMUNeXt模块 提升多尺度、小目标检测能力。

传统U型卷积网络在提取全局上下文信息方面存在局限,影响病变定位精度。尽管CNN与Transformer混合架构能解决此问题,但计算资源消耗大且难以适配医学数据。为此,研究人员提出CMUNeXtBlock,结合大卷积核与深度可分离卷积,在轻量级网络中实现全局信息提取与参数优化的平衡。CMUNeXtBlock通过大核深度卷积提取全局空间信息,利用倒置瓶颈逐点卷积混合空间与通道信息,并引入残差连接、GELU激活函数和批量归一化层,增强网络对长距离依赖关系的建模能力。该模块与YOLOv12结合,可提升目标定位精度与

2025-05-19 09:37:16 1144

原创 YOLO12改进-模块-引入Convolutional Modulation模块 捕捉更丰富的局部 - 全局空间关系,提升目标边界定位精度。

卷积神经网络(ConvNets)在视觉识别中擅长捕捉局部特征,但在全局上下文依赖建模上存在局限;而Vision Transformers(ViTs)虽能有效处理全局关系,却面临高分辨率图像下计算成本高的问题。Convolutional Modulation作为一种新方法,通过卷积操作简化自注意力机制,利用大核卷积更高效地编码空间特征,避免了自注意力的二次复杂度。该方法通过深度卷积生成权重矩阵,并与线性投影后的特征进行哈达玛积,实现局部区域内的特征加权聚合。Convolutional Modulation被引

2025-05-18 10:15:53 917

原创 YOLO12改进-模块-引入Channel Reduction Attention (CRA)模块 降低模型复杂度,提升复杂场景下的目标定位与分类精度

在语义分割任务中,传统自注意力机制(如SRA)因高分辨率特征图导致计算成本高昂。为解决这一问题,MetaSeg提出了ChannelReductionAttention(CRA)模块,通过压缩查询(Query)和键(Key)的通道维度至一维,显著降低计算复杂度,同时保持性能。CRA基于多头自注意力机制,通过线性投影将Query和Key的通道维度压缩至一维标量,使计算复杂度降至O(N²),并通过平均池化处理值(Value)保持信息完整性。实验表明,CRA在保持全局上下文信息的同时,计算量较传统方法减少约50%。

2025-05-18 10:15:20 1236

原创 YOLO12改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度

VisionTransformer(ViT)在计算机视觉领域取得了显著进展,但其缺乏卷积神经网络(CNNs)的归纳偏差,导致泛化能力较弱。SwinTransformer通过引入移位窗口自注意力机制改善了这一问题,但窗口化注意力的局部特性限制了其感受野。为了解决ViT的不足,研究提出了CNN-Transformer混合网络,但标准卷积的静态性质与自注意力的动态计算能力存在差异,削弱了模型的表示能力。通过有效感受野(ERF)分析,发现全局自注意力能够扩大模型的ERF,而将动态卷积与全局自注意力结合可以进一步扩展

2025-05-16 10:24:04 916

原创 YOLO12改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题

文章探讨了设备端神经网络在移动设备上的优化挑战,特别是如何在有限的计算资源下平衡精度和效率。介绍了MobileNetV4的改进,包括使用Roofline模型评估性能、Universal Inverted Bottleneck(UIB)块的扩展、MobileMQA注意力块的优化,以及两阶段神经架构搜索(NAS)策略。此外,文章还讨论了ShuffleNetv2的改进思路和基本单元结构,以及如何将MobileNetV4与YOLOv12结合,通过StarNet替换YOLOv12的backbone来提升特征提取能力和

2025-05-16 10:11:56 625

原创 YOLO12改进-Backbone-引入基于星运算StarNet替换YOLO原始backbone

在过去十年中,深度学习范式不断演进,自注意力机制在自然语言处理和计算机视觉领域广泛应用,但存在效率不高的问题。近期,星运算作为一种新的学习范式,通过元素乘法融合不同子空间特征,展现出良好的性能与效率。研究人员提出StarNet,验证星运算在高效网络中的有效性。StarNet采用4阶段分层架构,通过修改后的演示块进行特征提取,并优化了归一化和激活函数。将StarNet引入YOLOv12中,替换其backbone,有望在不增加过多计算量的情况下提升特征提取能力,增强对复杂目标的识别精度,同时降低模型整体延迟,提

2025-05-15 15:23:27 768

原创 YOLO11改进-模块-引入空间增强前馈网络SEFN 提高多尺度 遮挡

SEFN 的关键思想是利用从 SEM 块之前的特征表示中提取的空间信息,通过门控机制作用于 SMB 之后的特征,从而将空间感知和长距离依赖学习整合到整个 SEM 块中。通过平均池化扩大感受野,利用 {Conv-LN-ReLU} 块捕捉更广泛的空间感知,再经上采样得到空间感知指标 γ。利用该指标 γ 对 SMB 之后的特征进行调制,增强特征的空间感知能力,以此来补充 SSM 在局部空间信息捕捉上的不足,优化图像修复过程中的空间表示学习。特征获取。

2025-05-15 15:08:22 1592

原创 YOLO11改进-模块-引入Mona Layer 提取多尺度特征

基于人类视觉认知原理,人类眼睛从不同尺度处理视觉信号并整合以更好理解图像。受此启发,Mona Layer 引入多个卷积滤波器,从多个认知视角处理上游特征,增强适配器对视觉知识的处理和传递能力,提升在下游任务中的性能。Mona Layer 添加在 Swin - Block 的 MSA 和 MLP 之后,具体结构如下:输入调整部分。

2025-05-07 07:30:49 1297

原创 YOLO11改进-模块-引入轻量级分组注意力LWGA 动态融合不同层的特征,增强检测精度

LWGA 模块旨在增强遥感图像中多尺度物体的特征表示。它利用特征图中固有的冗余,通过多种特征提取技术处理每个分区。具体包括:点注意力(GPA):利用点注意力原理,优先关注微小物体的特征,通过通道扩展、激活函数处理和通道恢复等操作,生成注意力图,与原始特征结合,保留传统方法易忽略的细微差异。局部注意力(RLA):借鉴标准卷积的固有能力,通过特定卷积操作有效提取局部特征,对规则形状物体的特征提取效果较好。中距离注意力(SMA)

2025-05-07 07:29:33 1369

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除