- 博客(216)
- 收藏
- 关注
原创 【直接可用】Mamba与YOLO集成环境共享通知:免复杂搭建,私信我可获取镜像
鉴于 Mamba 与 YOLO 相关环境搭建过程中,常面临依赖包版本冲突、配置参数繁琐、编译环节易出错等问题,整体流程较为复杂,往往需要耗费大家大量时间排查调试。为有效提升大家的研发与使用效率,避免在环境搭建上重复投入精力,现已成功搭建完成一套完整、稳定且可直接运行的 Mamba 与 YOLO 集成环境。
2026-01-04 22:48:28
356
原创 YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
2025-11-25 19:53:36
1845
8
原创 YOLOv11 改进 - 注意力机制 | LRSA局部区域自注意力( Local-Region Self-Attention): 轻量级局部上下文建模弥补长程依赖细节不足 | CVPR2025
本文介绍了内容感知Token聚合网络(CATANet)中的局部区域自注意力(LRSA)模块在YOLOv11中的结合。基于Transformer的图像超分辨率方法存在计算复杂度高、捕捉长距离依赖能力受限等问题。LRSA作为CATANet的核心辅助模块,通过重叠补丁策略强化局部特征交互,补充局部细节。我们将相关代码加入指定目录,在`ultralytics/nn/tasks.py`中注册,配置`yolov11 - LRSA.yaml`文件,最后通过实验脚本和结果验证了方法的有效性。
2026-01-10 16:20:55
1
原创 YOLOv11改进 - C3k2融合 | C3k2融合LWGA轻量分组注意力(Light-Weight Grouped Attention):四路径并行架构破解通道冗余难题 | AAAI 2026
本文介绍了轻量级骨干网LWGANet及其核心模块LWGA在YOLOv11中的结合。现有用于遥感(RS)视觉质量分析的轻量级神经网络存在空间初始冗余和通道冗余问题,无法应对RS场景挑战。LWGA采用异构分组策略,将通道划分为4个不重叠子集,每个子集对应特定特征尺度,通过专用子模块处理并融合多尺度特征。我们将相关代码加入指定目录,在ultralytics/nn/tasks.py中注册,配置yolo11 - C3k2_LWGA.yaml文件,最后通过实验脚本和结果验证了方法的有效性。
2026-01-07 22:55:11
999
原创 即插即用模块 | FDConv:傅里叶域分解 + 动态调制,多任务性能碾压传统动态卷积 | CVPR 2025
即插即用模块 | FDConv:傅里叶域分解 + 动态调制,多任务性能碾压传统动态卷积 | CVPR 2025
2026-01-07 22:09:59
760
原创 YOLOv11 改进 - 损失函数 | SDloss尺度动态损失:动态平衡尺度与位置损失权重破解多尺度目标检测难题
本文介绍了基于尺度的动态损失(SD Loss)在YOLOv11中的结合。现有基于CNN的红外小目标检测方法忽略像素分布空间特性,且现有损失函数未考虑不同尺度目标对损失的敏感度差异。SD Loss包含边界框专用的SDB Loss和掩码专用的SDM Loss,能根据目标尺度动态调整尺度与位置损失的权重。我们将相关代码加入`ultralytics\utils\metrics.py`,在`ultralytics/utils/loss.py`中导入并修改函数,最后通过验证脚本和结果证明了方法的有效性。
2026-01-05 23:15:14
992
原创 YOLOv11 改进 - 损失函数 | Shape-IoU:形状感知交并比损失函数通过动态调整权重增强尺度适应性,优化不规则目标准确定位
本文介绍了Shape-IoU方法,用于改进YOLOv11的边框回归损失。现有边框回归方法常忽略边框自身形状与尺度对回归的影响,为此,作者先对边框回归特性分析,发现非正方形GT框中,边框形状与尺度差异会使IoU值显著不同,小尺度边框对GT框形状更敏感。基于此提出Shape-IoU损失函数,还针对小目标检测提出相关损失函数。我们将Shape-IoU代码加入`ultralytics\utils\metrics.py`,在`ultralytics/utils/loss.py`中导入并修改相关函数,最后给出验证脚本和
2026-01-05 22:54:26
857
原创 YOLOv8改进 - 注意力机制 | SCSA (Spatial and Channel Synergistic Attention) 空间通道协同注意力通过多语义空间先验与通道自注意力协同增强特征表
本文介绍了空间与通道协同注意力模块(SCSA),旨在揭示空间和通道注意力在多语义层面的协同关系。SCSA由可共享多语义空间注意力(SMSA)和渐进式通道自注意力(PCSA)组成,SMSA通过划分特征图和深度可分离卷积提取多语义空间信息,PCSA则进一步整合通道信息。两者相互协作,缓解多语义信息差异。我们将SCSA引入YOLOv8,在指定目录添加代码文件,在`ultralytics/nn/tasks.py`中注册,给出配置文件和实验脚本,实验展示了相关结果。
2026-01-05 22:42:39
721
原创 YOLOv8改进 - 注意力机制 | SOCA (Second-Order Channel Attention) 二阶通道注意力通过协方差建模增强特征判别性
本文介绍了二阶通道注意力(SOCA)模块,它通过引入二阶统计信息来增强特征表示和学习特征间的相关性。传统通道注意力机制依赖一阶统计信息,忽略了通道间相互关系,而SOCA模块计算特征图通道的协方差,捕捉通道间依赖。其实现步骤包括特征提取、计算均值和协方差、生成注意力权重和特征重标定。我们将SOCA模块引入YOLOv8,在指定目录添加代码文件,在`ultralytics/nn/tasks.py`中注册,给出配置文件和实验脚本,实验展示了相关结果。
2026-01-04 22:36:24
1007
原创 YOLOv8改进 - 注意力机制 | CGAFusion (Content-Guided Attention Fusion) 内容引导注意力融合解决多尺度特征自适应融合难题
本文介绍了内容引导注意力(CGA)机制,它结合通道注意力和空间注意力,为每个通道生成特定的空间重要性图,以更好地关注输入特征中的有用信息。CGA的通道注意力通过全局池化生成通道权重,空间注意力处理空间维度生成空间权重,二者结合生成最终注意力图。其优势在于通道特异性、空间关注和处理非均匀性。我们将基于CGA的CGAFusion模块引入YOLOv8,在指定目录添加代码文件,在`ultralytics/nn/tasks.py`中注册,并给出配置文件和实验脚本,实验给出了相关结果。
2026-01-04 22:33:44
832
原创 YOLOv8改进 - 注意力机制 | GCT (Gaussian Context Transformer) 高斯上下文变换器通过预设高斯关系实现高效通道注意力
本文介绍了高斯上下文变换器(Gaussian Context Transformer,GCT),这是一种新型通道注意力模块,旨在提升深度卷积神经网络(CNN)的表现力。传统通道注意力模块通过全连接层或线性变换学习全局上下文与注意力激活的关系,但效果不佳。GCT假设该关系预先确定,由全局上下文聚合、归一化和高斯上下文激励三个操作组成。根据高斯函数标准差是否可学习,分为无参数的GCT - B0和有参数的GCT - B1。我们将GCT引入YOLOv8,在指定目录添加代码文件,在`ultralytics/nn/ta
2026-01-04 22:31:51
636
原创 YOLOv11改进 - Mamba | ASSG (Attentive State Space Group) 注意力状态空间组:增强全局上下文感知 | CVPR 2025
本文介绍了MambaIRv2,它赋予Mamba非因果建模能力以实现注意力状态空间恢复模型。Mamba架构在图像恢复中存在因果建模局限,MambaIRv2提出注意力状态空间方程,还引入语义引导的邻域机制。实验表明,在轻量级和经典超分辨率任务中,MambaIRv2比其他模型有更好的峰值信噪比表现。我们将其核心组件Attentive State Space Group(ASSG)引入YOLOv11,该组件整合局部与全局特征建模,通过多个基础功能块实现特征层级建模。
2025-12-28 20:45:49
243
原创 YOLOv11改进 - Mamba | C3k2融合 VSS Block (Visual State Space Block) 视觉状态空间块,优化多尺度特征融合
本文介绍了将Mamba架构与U型网络结合的Mamba - UNet,用于医学图像分割。传统CNN和ViT在建模医学图像长距离依赖关系上存在局限,而Mamba - UNet受Mamba架构启发,采用基于纯视觉曼巴(VMamba)的编解码器结构并融入跳跃连接,还引入新颖集成机制,促进全面特征学习。VSS Block是Mamba - UNet的核心功能模块,通过两条路径并行处理和融合图像特征,且无“位置编码”和“MLP层”,更省资源、精度更高。 将其引入YOLOv11,与C3k2进行融合
2025-12-28 20:45:04
49
原创 YOLOv11改进 - Mamba | C3k2融合MobileMambaBlock在轻量前提下,融合全局、多尺度局部特征并保留高频细节 | CVPR25
本文介绍了MobileMamba Block,其设计核心是在轻量前提下融合全局、多尺度局部特征并保留高频细节,兼顾推理效率。它是模型的核心功能单元,采用“对称局部感知 + MRFFI 核心模块 + FFN 增强”架构。MRFFI 模块是关键,将输入特征按通道拆分为三部分处理:WTE - Mamba 提取全局和高频细节,MK - DeConv 实现多尺度局部感知,Eliminate Redundant Identity 压缩冗余。我们将其引入 YOLOv11,在根目录下添加相关代码文件,并在`ultralyt
2025-12-27 23:54:37
1124
原创 YOLOv11 改进 - Mamba | 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-B 替换骨干,破解全局依赖建模难题,实现高效实时检测
本文介绍Mamba YOLO,为图片物体识别提供了“又快又准”的新方案。传统CNN架构运行快但难以捕捉远距离关联物体,Transformer架构精度高但计算量呈平方级增长,而SSM虽计算量为线性级且能抓全局关联,但用于图片识别时细节定位不准。为此,Mamba YOLO做了三项关键优化:引入ODMamba骨干网络,解决自注意力的二次复杂度问题,且无需预训练;设计ODMamba宏观结构确定最佳阶段比例和缩放大小;采用多分支结构的RG块建模通道维度,解决SSM在序列建模中的不足。在COCO数据集测试中,其小版本推
2025-12-27 10:49:54
679
原创 YOLOv11 改进 - Mamba | 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测
本文介绍Mamba YOLO,为图片物体识别提供了“又快又准”的新方案。传统CNN架构运行快但难以捕捉远距离关联物体,Transformer架构精度高但计算量呈平方级增长,而SSM虽计算量为线性级且能抓全局关联,但用于图片识别时细节定位不准。为此,Mamba YOLO做了三项关键优化:引入ODMamba骨干网络,解决自注意力的二次复杂度问题,且无需预训练;设计ODMamba宏观结构确定最佳阶段比例和缩放大小;采用多分支结构的RG块建模通道维度,解决SSM在序列建模中的不足。在COCO数据集测试中,其小版本推
2025-12-27 10:43:13
146
原创 YOLOv11 改进 - Mamba | 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-L 替换骨干,破解全局依赖建模难题,实现高效实时检测
本文介绍Mamba YOLO,为图片物体识别提供了“又快又准”的新方案。传统CNN架构运行快但难以捕捉远距离关联物体,Transformer架构精度高但计算量呈平方级增长,而SSM虽计算量为线性级且能抓全局关联,但用于图片识别时细节定位不准。为此,Mamba YOLO做了三项关键优化:引入ODMamba骨干网络,解决自注意力的二次复杂度问题,且无需预训练;设计ODMamba宏观结构确定最佳阶段比例和缩放大小;采用多分支结构的RG块建模通道维度,解决SSM在序列建模中的不足。在COCO数据集测试中,其小版本推
2025-12-27 10:35:26
39
原创 YOLOv11改进 - 卷积Conv | PATConv(Partial Attention Convolution)部分注意力卷积,在减少计算量的同时融合卷积与注意力的优势 | AAAI 2026
本文提出部分注意力卷积(PATConv)机制,并将其集成到YOLOv11中。传统神经网络中,卷积计算密集,注意力机制全局计算冗余,此前的“部分卷积”会丢失未计算通道的特征价值。PATConv通过“通道拆分 - 并行处理 - 结果拼接”的逻辑,给不同通道分配“擅长的任务”,兼顾局部与全局特征。基于此,它还衍生出PAT_ch、PAT_sp和PAT_sf三种细分模块。此外,还提出了动态部分卷积(DPConv),并构建了新的混合网络家族PartialNet。我们将PATConv代码集成到YOLOv11中,实验表明,
2025-12-25 22:45:31
406
原创 YOLOv11 改进 - C2PSA | C2PSA融合TSSA(Token Statistics Self-Attention)令牌统计自注意力,优化遮挡目标感知
本文介绍了Token Statistics Self-Attention(TSSA)机制,并将其集成到YOLOv11中。传统自注意力计算复杂度高,TSSA进行了范式转变,基于token统计特征实现高效注意力交互。它通过“算法展开”推导得出,以“最大编码率降低”为目标,实现特征学习。TSSA包含动态分组和低秩投影优化两步创新,具备线性复杂度。我们将TSSA代码集成到YOLOv11的C2PSA模块中。实验表明,改进后的YOLOv11在目标检测任务中表现良好,验证了TSSA机制的有效性。
2025-12-25 21:56:19
469
原创 YOLOv8改进 - 注意力机制 | ELA (Efficient Local Attention) 高效局部注意力通过轻量化设计实现精准空间定位
本文提出高效局部注意力(ELA)机制,并将其集成到YOLOv8中。传统注意力机制在利用空间信息时存在不足,ELA旨在解决这些问题。其通过“条带池化”提取空间信息,用1D卷积处理特征向量,使用分组归一化替代批量归一化,最后生成空间注意力图。我们精心设计了三个超参数,形成四个不同版本以满足不同视觉任务需求。将ELA代码集成到YOLOv8后,在数据集上的实验表明,改进后的YOLOv8在目标检测任务中均优于当前方法。
2025-12-24 21:39:36
922
原创 YOLOv8改进 - 注意力机制 | ParNet (Parallel Subnetworks) 并行子网络结构以低深度实现高性能特征提取
本文提出ParNet注意力机制,并将其集成到YOLOv8中。传统深度神经网络计算复杂度高、延迟大,而ParNet通过并行子网络设计解决了这些问题。其核心是将网络层并行组织成多个子网络,采用VGG风格块进行特征提取,后期融合各子网络特征。该机制将序列分割成子序列独立计算注意力,降低了长序列计算复杂度。我们将ParNetAttention代码集成到YOLOv8中。实验表明,改进后的YOLOv8在多个数据集上表现良好,验证了非深度网络在保持高性能的同时可减少延迟。
2025-12-24 21:36:04
1006
原创 YOLOv8改进 - 注意力机制 | CAFM (Convolution and Attention Fusion Module) 通过并行卷积与注意力分支实现高效特征融合
本文提出HCANet模型,并将其核心的CAFMAttention模块集成到YOLOv8中用于目标检测。传统方法在高光谱图像去噪时,对全局和局部特征的同时建模研究较少。HCANet采用U型网络结构,包含CAFM和MSFN模块。CAFM模块的局部分支用卷积和通道重排提取局部特征,全局分支用注意力机制捕获长距离依赖;MSFN模块通过并行扩张卷积实现多尺度信息聚合。我们将CAFMAttention代码集成到YOLOv8中。实验表明,改进后的YOLOv8在及目标检测任务中表现良好,验证了模型有效性。
2025-12-24 21:30:58
580
原创 YOLOv8改进 - 注意力机制 | ACmix (Mixed Self-Attention and Convolution) 自注意力与卷积混合模型实现全局-局部特征协同建模
本文提出ACmix模型,并将其集成到YOLOv8中用于目标检测。传统卷积和自注意力通常被视为独立方法,ACmix发现二者存在内在联系,其核心是将自注意力和卷积技术结合。输入特征经三个1×1卷积投影后,自注意力路径按多头自注意力处理,卷积路径用轻量级全连接层和深度卷积处理,二者输出由可学习标量控制相加。我们将ACmix代码集成到YOLOv8中。实验表明,改进后的YOLOv8在图像识别和下游任务中表现优于竞争性基线,证明了该模型的有效性。
2025-12-24 21:24:45
1011
原创 YOLOv8改进 - 注意力机制 | SEAM (Spatially Enhanced Attention Module) 空间增强注意力模块提升遮挡目标特征学习能力
本文提出基于单阶段检测器YOLOv5的实时人脸检测器YOLO - FaceV2,并将SEAM模块集成到YOLOv8中。传统人脸检测算法在精度、速度及处理遮挡等问题上存在不足。SEAM模块采用多头注意力机制,通过深度可分离卷积、1x1卷积、全连接网络学习面部特征,同时采用指数归一化提高模型鲁棒性。我们将SEAM代码集成到YOLOv8中。实验表明,改进后的YOLOv8在数据集上性能超过YOLO及其变体,在简单、中等和困难子集中均有提升,尤其在面部遮挡场景下表现出色。
2025-12-24 21:18:14
635
原创 YOLOv8改进 - 注意力机制 | Triplet Attention 三重注意力通过跨维度交互捕捉增强特征表征
本文提出三重注意力(Triplet Attention)机制,并将其集成到YOLOv8中用于计算机视觉任务。传统注意力机制在计算通道和空间注意力时相互独立,未考虑两者关系。Triplet Attention由三个并行分支构成,通过旋转操作构建跨维度交互,利用Z-pool操作降低维度,经分支计算和空间注意力分支计算后,将结果聚合。我们将其代码集成到YOLOv8中。实验表明,改进后的YOLOv8在图像分类、目标检测等任务中提高了性能。
2025-12-24 21:13:18
759
原创 YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025
本文提出信息整合注意力(IIA)机制,并将其集成到YOLOv11中用于遥感图像语义分割。传统CNN和Transformer方法分别存在难以捕捉全局信息和计算复杂的问题,现有基于Mamba的方法也未充分考虑局部信息。IIA机制利用图像特征空间位置不变性,通过基础信息融合、双方向序列提取和动态权重调制三个核心步骤,以及通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合四个关键操作,实现了轻量与精准的平衡。我们将IIA集成到YOLOv11的C3k2模块中。实验表明,改进后的YOLOv11在多个数据集上提高了精
2025-12-23 22:36:05
371
原创 YOLOv11 改进 - 注意力机制 | IIA信息整合注意力(Information Integration Attention ):精准保留空间位置信息,平衡精度与计算成本 | TGRS2025
本文提出信息整合注意力(IIA)机制,并将其集成到YOLOv11中用于遥感图像语义分割。传统CNN难捕捉全局信息,Transformer计算复杂,现有基于Mamba的方法未充分考虑局部信息。IIA利用图像特征空间位置不变性,先融合编解码器特征,再从高度和宽度方向提取序列信息,生成注意力权重因子动态调制特征。其通过通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合等操作,平衡了精度与计算成本。实验表明,集成IIA的YOLOv11在数据集上提高了精度,且运行高效。
2025-12-23 21:57:36
262
原创 YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
本文提出了用于低分辨率图像分割的MaskAttn - UNet框架,并将其核心的掩码注意力机制集成到YOLOv11中。传统U - Net类模型难以捕捉全局关联,Transformer类模型计算量大,而掩码注意力机制通过可学习的掩码,让模型选择性关注重要区域,融合了卷积的局部效率和注意力的全局视野。其工作流程包括特征适配、掩码生成、定向注意力计算和特征融合。我们将掩码注意力机制代码集成到YOLOv11中。
2025-12-22 22:56:11
281
原创 YOLOv11 改进 - 注意力机制 | Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
本文提出了用于低分辨率图像分割的MaskAttn - UNet框架,并将其核心的掩码注意力机制集成到YOLOv11中。传统U - Net类模型难以捕捉全局关联,Transformer类模型计算量大,而掩码注意力机制通过可学习的掩码,让模型选择性关注重要区域,融合了卷积的局部效率和注意力的全局视野。其工作流程包括特征适配、掩码生成、定向注意力计算和特征融合。我们将掩码注意力机制代码集成到YOLOv11中。
2025-12-22 22:55:01
300
原创 YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
本文介绍收缩 - 广播自注意力(CBSA)((Contract-and-Broadcast Self-Attention))机制,并将其集成到YOLOv11中。传统注意力机制存在黑盒难理解、计算复杂度高的问题,CBSA通过算法展开推导出本质上可解释且高效的注意力机制。它先从输入数据中选出少量代表性tokens,接着对代表进行收缩计算,再将结果广播给所有原始数据。该机制计算量线性增长,具有明确数学解释,还能统一多种注意力机制。我们将CBSA代码集成到YOLOv11的C3k2模块中。实验证明,改进后的YOLOv
2025-12-21 19:07:19
666
原创 YOLOv11 改进 - 注意力机制 | DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力
本文介绍了 DiffCLIP,一种将差分注意力机制集成到 CLIP 架构的视觉 - 语言模型,并将其应用于 YOLOv11。差分注意力机制通过计算两个互补注意力分布的差值,抵消无关信息干扰。单头差分注意力将 Q 和 K 拆分,分别计算注意力分布后做差值融合;多头差分注意力则每个头独立执行差分操作后聚合输出。关键参数 λ 可动态调控噪声抵消强度。我们将 DiffAttention 代码集成到 YOLOv11 中,替换原有模块。实验表明,改进后的 YOLOv11 在图像 - 文本理解任务中表现出色。
2025-12-21 16:04:02
582
原创 YOLOv11 改进 - C2PSA | C2PSA融合DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力
本文介绍了 DiffCLIP,一种将差分注意力机制集成到 CLIP 架构的视觉 - 语言模型,并将其应用于 YOLOv11。差分注意力机制通过计算两个互补注意力分布的差值,抵消无关信息干扰。单头差分注意力将 Q 和 K 拆分,分别计算注意力分布后做差值融合;多头差分注意力则每个头独立执行差分操作后聚合输出。关键参数 λ 可动态调控噪声抵消强度。我们将 DiffAttention 代码集成到 YOLOv11 中,替换原有模块。实验表明,改进后的 YOLOv11 在图像 - 文本理解任务中表现出色。
2025-12-21 14:26:02
187
原创 YOLOv11 改进 - C2PSA | C2PSA融合CPIASA跨范式交互与对齐自注意力机制(ACM MM2025): 交互对齐机制破解特征融合难题,提升小目标与遮挡目标判别力
本文介绍了跨范式表征与对齐Transformer(CPRAformer),并将其核心的CPIA - SA技术集成进YOLOv11。CPIA - SA通过协同“空间 - 通道”与“全局 - 局部”两种范式,解决传统图像去雨模型特征提取不全面的问题。其包含SPC - SA、SPR - SA和AAFM三个子模块,分别负责提取全局通道特征、细化局部空间特征以及对齐融合特征。工作流程为双路提取、动态过滤、空间细化和对齐融合。我们将CPIA - SA相关代码集成到YOLOv11中,替换原有模块。实验表明,改进后的YOL
2025-12-18 22:08:26
608
2
原创 YOLOv8改进 - 注意力机制 | D-LKA (Deformable Large Kernel Attention) 可变形大核注意力通过自适应感受野增强复杂目标检测
本文介绍了可变形大核注意力(D-LKA Attention)机制,该机制解决了Transformer在医学图像分割中计算成本高、忽略片间信息的问题。它通过大卷积核获取大感受野且控制计算开销,结合可变形卷积动态调整采样网格以适配数据模式,还设计了2D和3D版本(3D版擅长跨深度数据理解)。我们将D-LKA Attention集成进YOLOv11,构建分层视觉Transformer架构D-LKA Net。实验证明,该模型在数据集上表现优于现有方法,提升了分割精度。
2025-12-17 23:17:02
877
原创 YOLOv8改进 - 注意力机制 | DAT (Deformable Attention) 可变形注意力通过动态采样点实现高效特征聚焦
本文介绍了可变形自注意力模块DAttention,该模块解决了传统Transformer注意力机制计算成本高、对无关信息敏感等问题。它通过数据依赖的位置选择、灵活的偏移学习等机制,动态聚焦关键区域,捕捉有效特征。我们将DAttention集成进YOLOv8,替代原有模块提升特征提取能力。实验证明,集成该模块的YOLOv8在检测任务中表现更优,验证了可变形注意力的有效性。
2025-12-17 23:13:42
1137
原创 YOLOv8 改进 - 注意力机制 | EMA(Efficient Multi-Scale Attention)高效多尺度注意力通过跨空间学习增强特征表征
本文提出了新颖高效的多尺度注意力(EMA)模块,并将其与YOLOv8结合以提升性能。该模块着重保留各通道信息、降低计算开销,通过将部分通道重塑为批量维度、分组通道维度,使空间语义特征分布更均匀。其创新点包括高效多尺度注意力机制、通道维度重塑、并行子网络设计等,在目标检测任务中表现出色。EMA模块结合通道和空间信息,采用多尺度并行子网络结构,优化坐标注意力机制。实验表明,将EMA集成进YOLOv8后,模型在图像分类和目标检测任务上有更好表现。
2025-12-17 23:05:26
1286
原创 YOLOv8 改进 - 注意力机制 | HAT (Hybrid Attention Transformer) 混合注意力变换器,通过激活更多像素提升小目标重建能力
本文介绍了混合注意力Transformer(HAT),针对图像超分辨率任务设计,结合通道注意力与窗口自注意力,引入重叠交叉注意力模块增强窗口间信息交互,还采用同任务预训练策略挖掘模型潜力。该模型通过浅层/深层特征提取、图像重建模块完成超分辨率任务,深层提取依托RHAG结构整合残差连接与混合注意力。将HAT集成进YOLOv11,替换相关特征处理模块,实验表明YOLOv11-HAT在检测任务中表现良好,提升了模型特征提取与交互能力。
2025-12-17 22:58:31
831
原创 YOLOv8 改进 - 注意力机制 | iRMB (Inverted Residual Mobile Block) 倒置残差移动块实现局部与全局特征高效协同
本文介绍了倒置残差移动块(iRMB),并将其集成到YOLOv8中。传统轻量级模型在资源受限设备上存在性能瓶颈,iRMB融合了CNN和Transformer架构的优点,既保留了CNN建模短距离依赖的高效性,又具备Transformer动态建模长距离交互的能力。其创新点包括融合架构优势、设计简单高效、优化资源消耗、实现技术突破以及具备灵活性和泛化能力。我们将iRMB集成到YOLOv8,经注册和配置yaml文件后进行实验,结果表明该方法在目标检测任务中具有良好效果。
2025-12-17 22:50:51
743
原创 YOLOv11改进 - C3k2融合 | C3k2融合HMHA分层多头注意力机制(CVPR 2025):优化模型在复杂场景下的目标感知能力
本文介绍了分层多头注意力驱动的Transformer模型HINT中的核心模块HMHA,并将其集成到YOLOv11中。传统多头注意力机制(MHA)存在冗余问题,HMHA通过“通道重排序+分层子空间划分”,使注意力头在不同子空间学习,避免冗余,提取多样化上下文特征。其流程包括通道重排序、分层子空间划分与注意力计算、特征聚合三步。我们将HMHA集成到YOLOv11,构建C3k2_HMHA模块,经注册和配置yaml文件后进行实验,以验证其在目标检测任务中的有效性。
2025-12-16 22:44:10
955
原创 YOLOv11改进 - C3k2融合 | C3k2融合Mona多认知视觉适配器(CVPR 2025):打破全参数微调的性能枷锁:即插即用的提点神器
本文介绍了新型视觉适配器微调方法Mona,并将其集成到YOLOv11中。传统全参数微调成本高、存储负担重且有过拟合风险,现有PEFT方法性能落后。Mona仅调整5%以内的骨干网络参数,在多个视觉任务中超越全参数微调。其核心亮点包括参数效率高、性能突破和即插即用。适配器模块包含降维、多认知视觉滤波器等单元,通过深度可分离卷积和多尺度卷积核处理视觉信号,还加入分布适配层优化输入分布。我们将Mona集成到YOLOv11,经注册和配置yaml文件后进行实验,展现出良好效果。
2025-12-16 22:07:26
170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅