自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(130)
  • 收藏
  • 关注

原创 YOLO11改进-模块-引入调制融合模块MFM 动态融合不同层的特征,增强检测精度

MFM 的核心理论是基于特征融合和权重调制思想。它通过对不同来源的特征进行融合,并根据特征在去雾图像重建中的重要性动态调整融合权重,突出对去雾有重要贡献的特征,抑制无关或干扰特征,从而提升网络对图像特征的表达能力,优化去雾效果。例如,在去雾网络的解码过程中,不同层级和通道的特征包含了不同尺度和类型的信息,MFM 能够自适应地整合这些信息,使网络更好地学习到图像的清晰结构和细节信息。从提供的图片来看,调制融合模块MFM模块主要包含以下几个部分:输入:接收来自其他模块的特征信息。

2025-03-31 09:51:14 628

原创 YOLO11改进-模块-引入Dynamic Tanh优化模型提高精度

研究发现,Transformer 中的 LN 层对输入的映射呈现出类似 tanh 函数的 S 形曲线特性。在较浅层的 LN 层,输入输出关系近似线性;而在较深层,多数曲线形状与 tanh 函数的全段或部分 S 形高度相似。LN 通过对每个 token 独立计算统计量进行归一化,对不同 token 的激活值进行线性变换,但由于不同 token 的均值和标准差不同,整体上对输入张量的激活值呈现出非线性变换效果,尤其对极端值有压缩作用。

2025-03-31 09:50:34 1156 1

原创 YOLO11改进-模块-引入残差哈尔离散小波变换RHDWT 降噪、减少特征丢失,增强小目标和遮挡的检测能力

RHDWT 创新性地将模型驱动分支和残差分支相结合。模型驱动分支利用 Haar DWT(HDWT),融入条纹方向先验知识,对原始特征进行分解,把条纹噪声聚集到特定子带,为后续处理提供基础。残差分支则通过数据驱动的跨通道语义,补充模型驱动分支的信息,弥补其在语义交互上的不足。两者相加,能够更全面地描述图像特征,提升对条纹噪声的表征能力,有效克服了传统独立采样器的缺陷,为准确去除红外图像条纹噪声奠定了理论基础。从提供的图片来看,RHDWTRHDWT 由模型驱动分支和残差分支组成。

2025-03-26 09:53:41 1002

原创 YOLO11改进-模块-引入局部特征嵌入全局特征提取模块LEGM 融合全局与局部特征解决多尺度、去噪、遮挡的问题

LEGM 的理论基础在于卷积网络提取的特征包含大量局部信息,而将卷积层与自注意力机制相结合,能够同时获取局部和全局特征,实现特征的有效融合。在深度信息辅助去雾过程中,LEGM 通过融合不同来源的特征,挖掘它们之间的潜在关系,突出与清晰图像相关的特征,从而有助于保护图像的细节信息,提升去雾效果。例如,它将 U-Net 输出经 1×1 卷积后的特征、3×3 卷积输出的特征以及深度估计网络 DE 后 DRDB 输出的特征作为输入,综合这些局部与全局特征进行后续处理。从提供的图片来看,LEGM。

2025-03-26 09:53:05 1042

原创 YOLO11改进-模块-引入跨尺度选择性融合模块CSFblock 解决不同分辨率特征融合的问题

CSFblock 的设计基于多尺度特征融合的理论。它认为不同分辨率的特征都包含着对图像分类有价值的信息,通过将高分辨率特征和经过上采样处理后的低分辨率特征进行融合,可以充分利用这些信息。具体来说,利用全局平均池化(GAP)获取特征的全局信息,再通过全连接层生成紧凑特征向量来引导特征选择过程,最终通过注意力机制对不同分辨率的特征进行加权融合,使得模型能够更好地捕捉图像的多尺度特征,从而提高分类的准确性。从提供的图片来看,CSFblockMCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。

2025-03-25 09:08:04 1214

原创 YOLO11改进-模块-引入局部区域自注意力机制Local-Region Self-Attention(LRSA) 利用自注意力机制增强小目标和遮挡的检测能力

LRSA 的核心理论基于自注意力机制,其目的是增强局部区域内令牌(token)之间的依赖关系。在图像超分辨率中,局部区域的细节对于重建高分辨率图像至关重要。LRSA 通过计算局部区域内不同位置特征之间的注意力权重,来确定每个位置对其他位置的关注程度,从而使模型能够聚焦于局部区域内的重要信息。例如,在处理图像中的纹理、边缘等细节时,LRSA 可以根据不同位置特征的相似性,自适应地分配注意力,更好地保留和利用这些局部信息。从提供的图片来看,LRSA重叠补丁。

2025-03-25 09:07:28 1145

原创 YOLO12改进-模块-引入​多维协作注意力MCAM 抗背景干扰,增强多尺度、小目标

​MCA(多维协作注意力)的核心在于打破传统注意力机制对通道与空间维度的割裂式处理,通过多维度协同感知与动态轻量化计算,让网络更智能地捕捉特征间的复杂关联。其本质是让模型同时回答三个问题:“哪些特征重要”(通道维度)、“重要特征在垂直方向的位置”(高度维度)、“重要特征在水平方向的位置”(宽度维度),并将三者动态融合。例如,识别一只鸟时,MCA不仅会增强“羽毛纹理”对应的通道,还能在空间上聚焦“头部区域”,且这种多维度判断是相互关联的——羽毛纹理的显著性可能影响头部定位的权重。

2025-03-21 12:16:00 1443 1

原创 YOLO11改进-模块-引入多维协同注意力机制MCA 解决遮挡和小目标问题

受人类视觉系统启发,注意力机制可视为基于输入图像特征重要性的动态权重调整过程,帮助网络聚焦于图像中最有意义的区域,忽略不必要部分。通过特征聚合、特征变换和特征整合三个步骤构建注意力机制,在深度学习中,将注意力机制融入卷积块有助于大幅提升网络性能。然而,现有方法在学习注意力权重、聚合上下文信息和特征变换等方面存在不足,因此需要开发一种轻量化、高效且可扩展的注意力模块。MCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。

2025-03-20 09:16:09 812

原创 YOLO11改进-模块-引入前 k 稀疏注意力TKSA 动态选择重要区域,关注遮挡小目标区域,减少噪声的影响

TKSA 旨在通过自适应地保留最有用的自注意力值来改进特征聚合。它基于一种可学习的 top - k 选择操作,在计算自注意力时,不是像标准自注意力那样对所有查询 - 键对计算注意力图,而是对每个查询,从键中选择 k 个最大的相似性分数进行自注意力计算。具体来说,通过对通道进行 1×1 卷积和 3×3 深度卷积编码通道上下文,然后计算所有重塑后的查询和键之间像素对的相似性,并在转置的注意力矩阵 M 中屏蔽掉注意力权重较低的不必要元素。

2025-03-20 09:15:38 688

原创 YOLO11改进-模块-引入空间带状注意力机制(Spatial Strip Attention,SSA)增强模型对空间信息处理能力的重要模块

SSA 基于注意力机制的思想,通过对输入特征图的不同空间位置赋予不同的权重,使模型能够有选择性地关注重要的空间区域。它利用轻量级的计算模块来生成注意力权重,避免了自注意力机制中过高的计算成本,同时能在水平和垂直方向上扩大感受野,有效聚合相邻位置的信息,从而更好地捕捉空间上下文。生成水平方向注意力权重:先在水平方向选取大小为 1×K 的带状区域,对其进行全局平均池化(GAP)操作,将特征压缩。接着通过一个卷积层(Conv)和 Sigmoid 函数,生成水平方向的注意力权重。水平方向信息聚合。

2025-03-19 09:15:19 772

原创 YOLO12改进-模块-引入​双域条带注意力机制DSAM 解决卷积中卷积核固定和感受野固定问题,以及transformer计算量大的问题

​DSAM(Dual-Domain Strip Attention Mechanism)的核心思想是通过空间域和频率域的双重注意力机制,高效地捕捉图像中的上下文信息,并利用多尺度学习处理不同大小的退化问题。其设计灵感来源于以下两点:​空间域的长程依赖建模:传统卷积的感受野有限,难以建模大尺度退化;自注意力虽能捕捉长程依赖,但计算复杂度高。DSAM通过条带注意力在水平和垂直方向上高效聚合信息,隐式扩展感受野。频率域的频谱差异利用。

2025-03-19 09:14:20 1190

原创 YOLO11改进-模块-引入卷积加法自注意力机制 Conv Additive Self-Attention 轻量化自注意力机制

Conv Additive Self-Attention 理论基于对传统视觉 Transformer(ViT)自注意力机制的深度剖析。传统 ViT 的多头自注意力(MSA)虽能捕捉长距离依赖和全局信息,但计算时需测量所有 Query 对来获取注意力图,计算复杂度与输入图像大小呈二次关系,在资源受限场景计算负担过重。研究表明,自注意力机制获取全局上下文信息依赖多个信息交互维度,如空间和通道域交互。因此,该机制提出新思路:用更简单高效操作实现信息交互,摒弃复杂且计算成本高的矩阵乘法和 Softmax 操作。

2025-03-18 08:00:00 740

原创 YOLO11改进-模块-双域带状注意力机制DSAM ,增强图像细节特征以及多尺度小目标检测精度

DSAM 基于双域学习理论,通过空间和频率两个域的信息融合,增强图像特征表示。在空间域,SSA 利用简单卷积分支生成注意力权重,聚合相邻位置信息;在频率域,FSA 通过带状平均池化分离频率成分,用轻量级注意力参数调制,减少清晰和退化图像对之间的频率差距。此外,DSAM 应用不同带状大小进行多尺度学习,以更好地处理各种尺寸的退化。DSAM 被应用于 DSANet 网络中,该网络采用流行的编码器 - 解码器架构。

2025-03-18 08:00:00 2025

原创 YOLOv8模型改进 第三十二讲 添加Transformer Self Attention TSA 解决CNN过程中特征丢失的问题

在医学图像分割中,传统方法面临长距离特征依赖建模难、局部信息传递利用不足和网络结构缺陷等问题,TSA 通过多头自注意力机制和位置编码捕捉长距离依赖、优化特征表示。TSA 本质上属于自注意力机制。我分享这篇论文的核心目的,是为了给大家提供撰写论文的思路,尤其是关于如何挖掘创新点。在运用自注意力机制进行研究时,最常见的应用方向是引入上下文信息以及捕捉长距离依赖关系,以此解决 CNN 网络仅能提取局部特征的局限性问题。

2025-03-12 09:20:27 1181

原创 YOLO11改进-模块-引入Transformer Self Attention TSA解决卷积过程中特征丢失的问题

在医学图像分割中,传统方法面临长距离特征依赖建模难、局部信息传递利用不足和网络结构缺陷等问题,TSA 通过多头自注意力机制和位置编码捕捉长距离依赖、优化特征表示。TSA其实就是一个自注意力机制,我分享这篇论文主要的想法是让大家怎么去写论文,就是怎么找创新点,一般我们使用子注意力机制写的最多的就是引入上下文信息,捕捉长距离依赖等,解决CNN网络局部特征的问题。这篇论文提出了一个点:在传统卷积神经网络用于医学图像分割时,卷积和池化是常用操作。

2025-03-12 08:15:00 981

原创 YOLO11改进-模块-引入点亮交叉注意力模块(Lighten Cross-Attention,LCA) 提升模型对图像细节的捕捉能力,以实现更精准的显著目标检测。

LCA 模块旨在促进 HV 分支和强度分支之间的交互引导,学习两个分支的互补信息。通过交叉注意力块(CAB),让 HV 特征和强度特征相互引导,例如将一个分支作为查询,另一个分支作为键和值,以此学习互补潜力。同时,基于 Retinex 理论,强度增强层(IEL)对相关张量进行分解处理,以改善图像的亮度并去除饱和区域;颜色降噪层(CDL)则用于避免噪声伪影和颜色偏移,最终提升增强图像的视觉效果。

2025-03-12 08:15:00 1156

原创 YOLO11改进-模块-引入凝聚注意力机制Condensed Attention解决遮挡、小目标问题

CA 的核心理论基于特征聚合、注意力计算和特征恢复的三步范式。通过在注意力计算前对通道和空间特征进行聚合,减少冗余特征,降低维度,从而在可接受的计算成本下进行全局注意力计算。在计算完注意力后,再恢复特征的空间和通道维度,以保持与输入特征的一致性。这种先降维计算注意力再恢复维度的方式,使得在超像素层面高效捕获全局依赖成为可能。CA 主要包含特征聚合与恢复以及通道和空间注意力两部分结构。特征聚合与恢复。

2025-03-06 08:15:00 1283

原创 YOLO11改进-模块-引入多尺度边缘增强模块MEEM 提升模型对图像细节的捕捉能力,以实现更精准的显著目标检测。

MEEM 的理论基础在于通过多尺度处理和边缘增强来补充 SAM 在细节捕捉上的不足。利用平均池化扩大感受野,在不同尺度下提取图像的边缘信息,再通过边缘增强器突出物体边缘,使模型能够更好地感知物体的边界和细节。通过融合多尺度的边缘信息,MEEM 能够为后续的显著目标检测提供更丰富、更准确的细节特征,从而提高模型对复杂场景中显著物体的定位和分割精度。从提供的图片来看,MEEM多尺度边缘增强模块(MEEM)主要用于在显著目标检测任务中,从输入图像中提取多尺度边缘信息并增强细节,其具体结构如下:局部特征提取。

2025-03-06 08:00:00 1718 2

原创 YOLO11改进-模块-引入多尺度小波池化变压器MWPT 通过结合小波变换、多尺度池化以及门控机制等技术解决多尺度、小目标、边缘模糊等问题

MWPT 模型的理论基础融合了 PoolFormer 的高效令牌混合机制、小波变换的特性、多尺度池化策略以及门控网络原理。它以 PoolFormer 为核心,用基于池化的令牌混合替代传统 Transformer 中计算复杂的注意力机制,降低模型复杂度。同时,引入多尺度小波池化注意力(MWPA)机制,借助小波变换将输入特征分解为不同频率的子带,获取多尺度信息,再经多尺度池化聚合这些信息,增强模型对不同尺度特征的捕捉能力。

2025-03-05 19:23:49 1172

原创 YOLO11改进-模块-引入多域学习MDL(Multi-Domain Learning) 使用频域增强图像特征

MDL 模块的理论基础是融合空间域和频域信息,共同指导扩散过程。在低光图像增强中,频域特征包含重要的信息,如颜色和纹理等,在采样过程中,频域特征也会逐步优化,且通常遵循从低频到高频的恢复方式。因此,将频域信息与空间域信息结合,可以为模型提供更全面的特征表示,从而更精确地恢复低光图像。

2025-03-05 18:57:52 947 4

原创 YOLO11改进-模块-引入混合池化注意力模块Hybrid Pooling Attentio解决小目标问题、遮挡问题

平均池化和最大池化操作的结合可以有效整合通用和详细信息,增强特征图的表示能力。平均池化近似窗口内的值,类似对日常经验的模糊记忆,能获取数据的大致趋势;最大池化捕获窗口内的峰值,类似对重要或特殊事件的清晰记忆,可突出数据的关键特征。通过在不同空间维度上分别进行平均池化和最大池化操作,HPA 可以从不同角度捕捉特征信息。同时,利用分组和重加权的思想,对输入特征图进行分组处理,通过跨空间学习的方式整合不同组的特征,自适应地重新校准通道间的关系,实现不同的跨通道交互,从而有效捕捉和学习复杂的低级特征表示。

2025-02-26 12:23:32 1481

原创 YOLOv8模型改进 第三十一讲 添加混合结构模块Mix Structure Block 提高小目标检测能力,增强细节特征

Mix Structure Block的设计灵感来源于Transformer的结构,但它用多尺度并行大卷积核模块替代了Transformer中的多头自注意力机制,并用增强并行注意力模块替代了前馈网络。多尺度并行大卷积核模块能够同时捕捉大范围的雾区域和恢复纹理细节,而增强并行注意力模块则能够并行提取全局共享信息和局部位置依赖信息,从而更好地处理雾分布不均匀的情况。该模块主要由两个关键组件构成:1. 多尺度并行大卷积核模块(MSPLCK)​​。

2025-02-26 09:09:24 1129

原创 YOLO11改进-模块-引入双分支特征提取(Twin-Branch Feature Extraction,TBFE)解决小目标问题、遮挡

TBFE 模块的设计基于 CNN 强大的局部特征提取能力。通过并行使用 3D 和 2D 卷积,分别从光谱和空间维度对 HSI 数据进行特征提取,旨在在特征提取早期无缝集成光谱和空间信息。利用低输出通道的逐点卷积层调整 HSI 的通道维度,减少后续层的输入通道数,降低计算复杂度的同时提取光谱信息。3D 卷积结合扩展和挤压机制,增强对光谱特征的捕获能力;2D 卷积用于提取光谱 - 空间特征,两者结合可充分发挥各自优势,提升模型对光谱 - 空间特征的表示能力。

2025-02-25 17:13:06 1488

原创 YOLO11改进-模块-引入极性感知注意力 Polarity-Aware Attention

在传统的模型注意力机制里,就好比我们看东西只看一半。它常常会把一些带有 “负” 含义的信息丢掉,只留下 “正” 信息。比如说,在判断两个事物的关系时,只关注它们相似、匹配的地方,而忽略了它们之间不匹配、相反的部分。极性感知注意力就改进了这一点,它把每个信息(查询向量和键向量)都拆成 “正” 和 “负” 两个部分。这样一来,模型在计算两个信息之间的关系时,不仅会考虑它们相同符号(比如都为正或者都为负)部分的相似程度,还会考虑不同符号(一个正一个负)部分的相互作用。

2025-02-25 16:44:48 991

原创 YOLO11改进-模块-引入混合结构模块Mix Structure Block 提高多尺度、小目标

多尺度并行大卷积核模块(MSPLCK):大卷积核具有更大的有效感受野和更高的形状偏差,能通过扩大感受野在学习的潜在域空间中捕获更多结构化信息,帮助单个像素基于大范围周围像素恢复图像并还原物体形状;小卷积核则专注于细节特征,恢复纹理细节。不同大小的卷积核并行工作,可从不同尺度关注图像区域,提取多尺度特征,这些特征在通道维度上连接,再经多层感知器处理,既能融合不同类型特征,又能拟合去雾特征。增强并行注意力模块(EPA)

2025-02-24 17:53:53 1229 1

原创 YOLOv12 论文结构解析:强势来临,超越 YOLOv11!

YOLO 系列延迟和精度注意力机制捕捉长距离依赖重点没有效率问题二次方增长效率较低严重制约。:通过简单地将特征图在水平或垂直方向划分为多个区域(默认 4 个),避免了复杂的窗口划分操作,在保持较大感受野的同时,将注意力计算复杂度从降低到 ,显著提升了速度,且对性能影响较小。:针对注意力机制带来的优化挑战(主要在大规模模型中),R-ELAN 基于原始 ELAN 进行了两项改进。一是引入块级残差设计和缩放技术,对于大模型(如 YOLOv12-L/X),这种设计是稳定训练的关键;

2025-02-24 16:07:09 1652

原创 YOLOv8模型改进 第三十讲 添加自注意力机制Restormer提高小目标检测能力,增强细节特征

原理:利用自注意力机制,尤其是多头自注意力,从不同子空间捕捉特征间关系,计算注意力权重衡量元素重要性以聚合信息,捕捉长距离依赖关系;通过位置编码为模型提供元素位置信息,辅助恢复图像结构和细节。模块结构1. 多尺度密集 Transformer 注意力模块(MDTA):基于多头自注意力机制,输入特征投影到多个头,每个头独立计算注意力,再拼接和变换,增强特征表达能力。2. 门控双线性特征网络(GDFN):对 MDTA 输出特征进一步处理,通过门控机制和双线性变换控制特征流动和融合,选择性增强或抑制不同特征。

2025-02-19 09:22:58 1660

原创 YOLO11改进-模块-引入多频率多尺度注意力(MFMSA)模块 提高多尺度、小目标

模拟人类视觉处理机制:人类视觉系统在观察事物时,能自动融合不同尺度和频率的信息,精准理解周围环境。受此启发,MFMSA block 致力于模拟这一过程,更好地处理医学图像。医学图像中病变大小差异极大,像肿瘤、息肉和细胞等,其尺寸各不相同,需要多尺度特征才能精准定位和分割这些区域。同时,由于医学图像采集方式的特殊性,图像的频率变化比尺度变化更明显,多频率信息对于构建高效的医学图像分割模型起着关键作用。多尺度与多频率信息融合:MFMSA block 先借助预训练的 ResNeSt 网络来提取输入图像的特征。

2025-02-18 11:46:44 1352

原创 YOLO11改进-模块-引入量化脉冲驱动自注意力机制 Q-SDSA 解决量化带来的性能下降

Q-SDSA 旨在解决量化过程中脉冲信息失真(SID)问题。研究发现,Q-SDSA 的信息呈现双峰分布,而 ANN 中的信息遵循正态分布,这使得 Q-SDSA 的信息表示能力受限。为解决该问题,从信息熵理论中获取灵感,将其转化为互信息熵最大化问题。具体通过双层优化策略实现,在较低层次引入信息增强的 LIF(IE-LIF)神经元,调整脉冲分布以最大化信息熵;在较高层次提出细粒度蒸馏(FGD)方案,使 Q-SDSA 的信息与 ANN 的信息对齐,最小化条件熵。

2025-02-18 10:50:16 968

原创 YOLO11改进-模块-引入融合傅里叶卷积混合器 Fused Fourier Convolution Mixer

FFCM(Fused Fourier Convolution Mixer)基于离散傅里叶变换(DFT)理论。离散傅里叶变换能将空间域的图像特征转换到频域。在图像去雨场景中,雨条纹在频域具有独特且相对稳定的特征模式,利用 DFT 可将图像的退化成分(如雨条纹)与正常图像成分在频域上进行一定程度的分离。同时,频域特征由整个空间域的成分计算得出,具备天然的全局特性,可作为全局特征提取器,有助于对图像进行全局建模分析,以实现有效的去雨等处理。

2025-02-11 17:42:57 1369 2

原创 YOLO11改进-模块-引入基于局部重要性的注意力机制Local Importance-based Attention LIA

注意力机制的核心是根据输入的相对重要性自适应地增强有用信息、削弱无用信息。LIA 受通过区域 softmax 获取局部重要性的研究启发,通过计算像素在其周围区域的重要性值来衡量局部重要性。通过这种方式,LIA 能够在低分辨率特征图上测量局部重要性,并通过一个通道门来校准注意力图,从而实现二阶信息交互的同时保证相对较低的延迟。为避免步长卷积和双线性插值带来的伪影,LIA 利用门机制对局部重要性进行重新校准。通过这种方式,LIA 能够在保留有用信息的同时,抑制噪声和无关信息,提升图像超分辨率的效果。

2025-02-11 17:22:27 1086

原创 YOLO11改进-模块-引入增强层间特征相关性(EFC)模块

EFC 模块通过增强层间特征相关性来优化特征融合。其核心在于利用分组特征聚焦单元(GFF)和多级特征重建模块(MFR)。GFF 通过空间集中、特征相关和空间映射归一化操作,聚焦不同特征的上下文信息,增强各层特征相关性;MFR 则对不同层特征中的强弱信息进行分离、定向融合、特征变换和层级融合,减少冗余特征融合,保留小目标信息,降低深层网络中小目标信息的不可逆损失。分组特征聚焦单元(GFF)

2025-02-10 11:06:52 1271 8

原创 YOLO11改进-模块-引入受波叠加模块 Wave-pooling

Wave-pooling 受 Wave-MLP 启发,将场景中的每辆车建模为具有特定振幅和相位的波。其中,振幅反映每个车辆的动态信息,相位则用于调制车辆间的交互。根据波的叠加原理,当多个波交叉时,合成波在某点的位移是各波在该点产生的单独位移的矢量和。在车辆交互场景中,车辆间的动态交互可通过对应波的叠加来反映。例如,当两辆车的波相位差较小时,类似波的相长干涉,表明它们之间相关性高、交互作用强;相位差较大时,类似相消干涉,交互作用弱。2. YOLOv11与Restormer 的结合。

2025-02-10 10:50:25 976

原创 YOLO11改进-模块-引入Restormer模块

1. 多尺度密集 Transformer 注意力模块(MDTA)核心机制:MDTA 利用多头自注意力机制(Multi - Head Self - Attention),从不同子空间捕捉特征间的关系,以增强特征表达能力。自注意力机制能够计算输入特征序列中每个位置与其他位置的关联程度,从而有效建模长距离依赖关系。具体操作:在 MDTA 中,输入特征被线性投影到多个头(head),每个头独立地计算注意力,然后将结果拼接并再次投影,得到最终输出。

2025-01-24 16:11:41 1194

原创 YOLO11改进-模块-引入风车状卷积模块pinwheel-shaped convolutional module

PConv 的设计基于红外小目标的高斯空间分布特性。其卷积核的感受野向外有效性递减,类似高斯分布,且小目标特征更集中于中心,凸显中心特征的重要性。PConv 利用分组卷积,在显著扩大感受野的同时,尽可能减少参数数量的增加。通过不对称填充,创建针对图像不同区域的水平和垂直卷积核,这些卷积核向外扩散,能够更好地捕捉红外小目标的特征,增强底层特征提取能力,提升对红外小目标的检测性能。风车状卷积模块(PConv)的结构主要包含以下几个关键部分:1. 不对称填充与并行卷积。

2025-01-24 15:25:03 2157

原创 YOLO11改进-模块-引入稀疏自注意力机制Sparse Self - Attention

Sparse Self - Attention 引入了 “稀疏率” 概念。对于输入的图像特征图,不再对整个特征图进行注意力计算,而是把它划分成一个个小的张量块。在计算注意力时,只在这些张量块内部进行,不同颜色标记的张量块之间不会进行注意力计算。通过这种方式,模型能够抑制对语义信息的关注,将更多的注意力放在提取非语义特征上。同时,由于只在张量块内计算,减少了大量不必要的计算,降低了模型的计算量,提高了运行效率。Sparse Self - Attention 是 SparseViT 模型编码器的重要部分。

2025-01-14 09:19:18 1414

原创 YOLOv8模型改进 第二十九讲 添加可学习小波变换节点 Learnable Wavelet Transform Node 提高小目标检测能力,增强细节特征

小波变换可将信号分解为高频和低频分量,分解出代表细节的高频部分和反映大致轮廓的低频部分,让我们能从不同频率角度分析信号。LWN 围绕小波卷积构建。先通过小波卷积层将输入特征图投影到小波域,接着分离小波域分量,用深度卷积提取变换特征,再经 1×1 卷积扩展缩放通道,最后经小波逆变换将特征图还原到空间域输出。

2025-01-14 09:18:22 1439 16

原创 YOLO11改进-模块-引入小波卷积WaveletConv 增加频域信息

1. WaveletConv原理:WaveletConv 的核心原理是利用离散小波变换来处理图像信号。离散小波变换可以将图像信号分解为不同频率的子信号,包括低频近似信号和高频细节信号。低频信号代表图像的大致轮廓和整体结构,高频信号则包含了图像的边缘、纹理等细节信息。通过这种分解,能够更有效地捕捉和处理图像中的不同特征,尤其在图像去模糊等任务中,有助于更好地恢复图像的细节和清晰度。在实际应用中,WaveletConv 将输入图像的特征从空间域转换到小波域。

2025-01-10 09:37:07 1743

原创 YOLO11改进-模块-引入可学习局部显著核模块(Learnable Local Saliency Kernel Module) 增加局部特征

ISTD 在海事监控、火灾报警、泄漏测量等众多领域至关重要。然而,红外目标具有小(占比小于 0.15% 图像像素)、暗(低信噪比和局部对比度)、尺寸多变(缺乏纹理和颜色信息)等特性,在复杂红外场景下检测难度极大,始终是研究热点与难点。2. 传统 ISTD 方法的分类与局限基于人类视觉系统(HVS)的方法利用红外目标在背景中呈现的圆形高斯强度模式及局部显著特征(如 “中心减邻域” 原理的局部微分核)识别目标,但单一强度特征不足以区分所有小目标,且参数调整复杂影响性能。

2025-01-10 09:36:20 1204

原创 YOLO11改进-模块-引入动态特征融合模块DFF 增强特征融合

以下是关于 DDF(动态特征融合)的原理和结构的介绍:1. 原理DDF 旨在基于全局信息自适应地融合多尺度局部特征图。它通过动态机制在融合过程中选择重要特征,以解决传统方法在特征融合方面的不足,提升模型对医学图像等的处理能力。例如在医学图像分割中,不同器官的形状和大小差异较大,传统方法难以有效融合多尺度特征,而 DDF 可以根据全局信息动态地调整不同尺度特征的权重,从而更好地捕捉和利用这些特征。2. 结构DDF 模块接收来自不同层次或不同尺度的特征图作为输入,有两个输入特征图。

2025-01-10 09:35:40 2094

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除