- 博客(117)
- 收藏
- 关注
原创 10种涨点即插即用模块 特征处理合集篇(六)!!!(附原文地址+论文+代码)
其创新性地引入了一组额外的令牌A的注意三元组(Q,K,V),并产生一种表示为四元组(Q,A,K,V)的代理注意力将代理令牌A的附加集合引入到传统注意力模块中。代理令牌首先充当查询令牌Q的代理,以聚集来自K和V的信息,然后将该信息广播回Q。虽然两者的组合更有利于发挥各自的优势,但通道和空间注意力之间的协同作用尚未得到充分探索,还缺乏充分利用多语义信息的协同潜力,所以,论文提出一种新的。在先前的线性注意力的研究中,像是采用深度卷积来保持特征多样性的方法虽然是有效的,但它们仍存在线性注意力有限的表达能力问题。
2025-03-31 17:59:01
942
原创 10种涨点即插即用模块 特征处理合集篇(五)!!!(附原文地址+论文+代码)
在现有的研究当中,CNN和传统注意力机制都存在着一定的局限性: 即虽然CNN 在图像识别等领域取得了显著成果,但其计算复杂度和参数数量仍然很高,限制了其在资源受限设备上的应用,现有的注意力机制(如 SE-Net, CBAM 等)虽然能够有效提升特征表达能力,但其计算复杂度和参数数量也相对较高,不适合轻量级 CNN。而子空间学习却有着以下优势: 子空间学习通过将特征图划分为多个子空间,可以分别学习每个子空间的注意力图,可以有效地捕捉不同尺度和不同频率的特征信息,从而提升特征表达能力。所以,这篇论文提出一种。
2025-03-31 17:56:36
729
原创 10种涨点即插即用模块 特征处理合集篇(四)!!!(附原文地址+论文+代码)
在现有的自注意力机制中,其建模长距离依赖关系方面表现出色,但其计算复杂度和内存需求巨大,限制了其在实际应用中的使用。例如,背景中的纹理信息可能会干扰模型的判断。FA 的核心思想是通过结合 通道注意力 (CA) 和 像素注意力 (PA) 机制,为不同类型的信息处理提供额外的灵活性,并扩展 CNN 的表示能力。现有的 Transformer 存在一些局限性: Transformer 在提取全局特征方面表现出色,但其注意力机制主要关注单向的序列关系,难以捕捉图像中复杂的空间和通道特征。所以,这篇论文提出一种。
2025-03-31 17:54:05
731
原创 10种涨点即插即用模块 注意力 合集篇(三)!!!(附原文地址+论文+代码)
论文首先分析了目前大多数现有的设计都是直接利用二维特征映射上的自注意力来获得基于每个空间位置上的孤立查询和关键字对的注意矩阵,而没有充分利用相邻关键字之间的丰富上下文信息。论文中分析到在浅层全局注意力机制中,注意力矩阵呈现出局部性和稀疏性的特点,这意味着浅层网络中大部分远距离 patch 之间在语义建模上是无关的,因此全局注意力机制存在大量冗余计算。: 现有的高分辨率密集预测模型往往依赖于复杂的模型结构,例如 softmax 注意力机制、大卷积核等,这会导致计算成本高昂,难以在硬件设备上部署。
2025-03-26 16:44:16
935
原创 10种涨点即插即用模块 注意力 合集篇(二)!!!(附原文地址+论文+代码)
为此,论文提出了一种新的非局部注意力,即 Fully Attention,通过在一个单一的相似性映射编码空间和通道的注意力来解决之前的问题,同时还能保持高的计算效率。与现有的通道和空间注意力模块相比,SimAM 实现了在不向原始网络添加参数的情况下,为层中的特征图推断3D层面上的注意力权重,并且这种注意力更加灵活,并且轻量化。为了弥补 点积注意力 的这一缺陷,论文提出了一种新的高效注意力机制(Efficient Attention),EA 与 点积注意力 等价,但具有更少的计算开销。
2025-03-26 16:41:46
672
原创 10种涨点即插即用模块 注意力 合集篇来啦(一)!!!(附原文地址+论文+代码)
因此,作者提出了一种新的移动网络的注意力机制,即在通道注意力中嵌入位置信息,称为“坐标注意力”。相当经典的一种通道注意力,在这项工作中,作者专注于通道的关系,提出了一种“Squeeze-and-Excitation (挤压和激励)”块,用来自适应重新校准通道的功能响应明确建模通道之间的相互依赖关系。这篇论文首先分析了 SE 通道注意力所存在的不足,如 SE 通道注意力只考虑在通道关系的层面来权衡每个通道的重要性,但忽略了位置信息对于生成空间选择性注意力图也是很重要的一个因素。
2025-03-21 17:43:19
824
原创 10种涨点即插即用模块 特征处理合集篇(三)!!!(附原文地址+论文+代码)
传统的特征融合方法无法有效区分目标变化和非目标变化以及无法有效融合不同尺度的特征图,这就使得现有的研究容易受到非目标变化的干扰、检测结果的细节信息丢失或语义信息不准确,最终导致变化检测结果不准确。论文论证道:变化检测任务需要同时关注变化区域的语义信息和空间细节信息,同时不同尺度的特征图包含不同的信息,如高层特征图语义信息丰富但空间细节信息丢失,低层特征图空间细节信息丰富但语义信息丢失。DASI 模块的目的是根据目标的大小和特征,自适应地选择合适的特征进行融合,从而更好地保留目标信息并增强目标的显著性。
2025-03-19 11:00:00
876
原创 10种涨点即插即用模块 特征处理合集篇(二)!!!(附原文地址+论文+代码)
在现有的研究中,随着层数的增加,GNN 和 Transformer 的性能往往会下降,这是因为学到的特征表示会趋同,导致模型无法区分不同的输入。此外,在现有的过度平滑分析方法中,主要集中在表示收敛到一个点的情况,而忽略了更普遍的维度崩溃情况,即表示在嵌入空间中形成一个狭窄的锥体,导致表达能力的损失。拼接后的特征图依赖于网络的学习能力进行信息融合,容易引入噪声;传统的上下文建模方法通常将固定的区域内的上下文信息聚合起来,忽略了不同像素对上下文需求的差异,导致像素与上下文之间的不匹配,从而影响分割精度。
2025-03-18 14:34:11
744
原创 10种涨点即插即用模块 特征处理合集篇(一)!!!(附原文地址+论文+代码)
所以,为了解决这个问题,BCN首先沿(N, H, W)轴计算平均值和方差,然后沿(C, H, W)轴计算,最后根据自适应参数ι将归一化输出进行组合。ASPP 的主要原理是基于以下几点:多尺度信息的重要性: 不同的物体尺度需要不同大小的感受野来捕捉特征。而 ASPP 则通过并行地使用不同膨胀率的空洞卷积,可以在不改变特征图分辨率的情况下,有效地获取不同尺度的上下文信息。ACmix 的核心原理:ACmix 通过将输入特征图投影到更深的特征空间,然后使用不同的聚合操作分别处理这些中间特征。
2025-03-15 14:00:29
890
原创 (即插即用模块-Convolution部分) 十八、(2024 CVPR) FADConv 频率自适应空洞卷积
扩张卷积在扩大感受野的同时,也降低了频率响应,导致高频信息丢失,出现混叠现象,影响模型性能。传统的扩张卷积使用全局固定的扩张率,无法适应不同区域的频率特征,限制了模型的表达能力。:通过空间变权重的策略平衡特征图中的高低频成分,抑制背景和物体中心的高频成分,鼓励 FADConv 使用更大的扩张率,从而扩大感受野。:将卷积核权重分解为低频和高频成分,并动态调整它们的比例,提高卷积核的频率响应,扩大有效带宽。FADConv 主要从频率分析的角度出发,提出了三种策略来改进扩张卷积,具体来说,
2025-03-13 10:00:00
932
原创 (即插即用模块-Convolution部分) 十七、(2024 ECCV) WTConv 小波变换卷积
视觉Transformer (ViT) 的自注意力机制能够进行全局特征混合,而卷积神经网络 (CNN) 受限于局部混合。为了弥补这一差距,一些研究尝试增加 CNN 的卷积核大小,但很快达到上限并饱和。现有方法要么参数量过大,要么难以扩展到全局感受野。所以这篇论文提出一种。WTConv 通过利用小波变换 (WT) 将输入分解成不同频率的分量。对每个频率分量分别进行小核卷积,每个卷积关注不同的频率范围。
2025-03-12 10:00:00
746
原创 (即插即用模块-Convolution部分) 十六、(2024 CVPR) IDConv Inception深度卷积
大核深度可分离卷积效率低下,尽管大核深度可分离卷积的 FLOPs 较低,但其内存访问成本高,在强大计算设备上(如 GPU)成为瓶颈。同时,小核卷积无法有效扩大感受野, 减小卷积核尺寸可以提高速度,但会限制模型的感受野,导致性能下降。IDConv 受 Inception 思想启发,将大核深度可分离卷积分解为多个并行分支,包括:小方核分支、正交带核分支以及恒等映射分支: 保持部分通道不变,避免信息丢失。,通过保留部分通道不变,仅对部分通道进行处理来达到更好的效果。
2025-03-11 10:00:00
1564
原创 (即插即用模块-Convolution部分) 十五、(2024) LDConv 线性可变形卷积
LDConv 提出了一个算法来生成任意大小卷积核的初始采样坐标,并通过偏移量调整采样形状,使其能够适应目标形状的变化。同时,LDConv 允许卷积核具有任意数量的参数,例如 1, 2, 3, 4, 5, 6, 7 等,从而为网络设计提供了更多灵活性。最后,LDConv 将参数数量的增长趋势从平方变为线性,从而降低了对硬件环境的要求。标准卷积操作通常使用固定形状的正方形核,无法适应目标形状的变化。所以这篇论文提出一种。,其源于对标准卷积操作的局限性认识,旨在提升卷积神经网络在目标检测等任务中的性能。
2025-03-10 10:00:00
716
原创 (即插即用模块-特征处理部分) 三十、(2024) BFAM & CBM & DFEM 特征聚合+特征提取+边界感知
在遥感图像变化检测中,边界信息对于准确识别变化区域至关重要。现有的方法往往忽略了边界信息与变化信息之间的关系,导致边界特征提取能力不足,影响检测精度。CBM 利用边界信息来辅助提取变化区域特征,其通过边缘增强操作,强化边界信息,使其在特征图中更加突出。此外,CBM 学习如何更好地利用边界信息来定位变化区域,并指导其他模块进行特征解耦。现有的方法往往由于特征解耦过程的信息损失,导致高级语义信息不足。然后利用残差操作融合特征信息,并提取更深层次的高层次语义特征。B2CNet 论文中提出的。
2025-03-09 10:00:00
1803
原创 (即插即用模块-特征处理部分) 二十九、(2024) CAFM 卷积注意力融合模块
CAFM 的基本思想是将卷积和注意力机制结合,卷积操作擅长捕捉局部特征,但难以建模全局特征和长距离依赖关系。: 注意力机制擅长提取全局特征,但忽略了局部特征,例如像素之间的空间相邻关系。论文考虑到卷积和注意力机制在特征建模方面具有互补性,结合两者可以更全面地捕捉HSI的局部和全局特征,所以提出一种。: 卷积操作擅长捕捉局部特征,但感受野有限,难以建模长距离依赖关系,例如空间上相隔较远的像素之间的关联性。: HSI包含丰富的空间和光谱信息,仅依靠卷积或注意力机制难以充分建模其复杂的特征。
2025-03-08 10:00:00
567
原创 (即插即用模块-特征处理部分) 二十八、(2024 AAAI) GAU 门控注意力单元
直接编码在每个时间步重复生成相同的浮点数,导致脉冲表示缺乏时间动态,无法有效模拟人类视觉系统对动态视觉信息的处理。: 由于缺乏时间动态,直接编码生成的脉冲表示信息量有限,导致 SNN 参数敏感性较高,性能受限。: 直接编码需要大量时间步才能维持高性能,导致模拟时间和能耗增加。为此,这篇论文提出一种。GAU 通过利用多维度注意力机制进行门控,将静态数据高效地编码为具有时间动态的强大表示。现阶段直接编码存在一些局限性:即。
2025-03-07 10:00:00
505
原创 (即插即用模块-特征处理部分) 二十七、(2024) DASI & MDCR 多尺度特征处理模块
DASI 模块的目的是根据目标的大小和特征,自适应地选择合适的特征进行融合,从而更好地保留目标信息并增强目标的显著性。DASI 模块通过将高维特征和低维特征在通道维度上分割成多个片段,并根据目标的大小和特征自适应地选择合适的片段进行融合。这样可以有效地保留目标信息并增强目标的显著性。MDCR 模块的目的是通过使用具有不同扩张率的深度可分离卷积层,捕获不同感受野范围内的空间特征,从而更精细地建模目标和背景之间的差异,增强小目标的识别能力。这样可以更精细地建模目标和背景之间的差异,增强小目标的识别能力。
2025-03-06 10:00:00
481
原创 (即插即用模块-特征处理部分) 二十六、(2023) EFF 高效特征融合模块
论文首先指出了UNet网络中关于特征融合存在的问题:即U型网络通过跳连接将低层特征和高层特征进行融合,但简单的拼接操作可能导致特征冗余和语义信息丢失。而注意力机制则可以弥补这些不足: 注意力机制可以有效地突出重要特征,并抑制无关特征,从而提高模型的特征表达能力。EFF模块主要是通过使用多注意力机制融合跳连接和上采样层的特征来融合特征,包括增强注意力门控(EAG)模块、通道注意力(ECA)模块、空间注意力(SA)模块。通过多种模块实现增强跳连接中传递的低层特征、突出重要通道以及抑制无关通道。
2025-03-05 10:00:00
611
原创 (即插即用模块-特征处理部分) 二十五、(2023 ICME) TFF&SFF 时间&通道特征融合模块
传统的特征融合方法无法有效区分目标变化和非目标变化以及无法有效融合不同尺度的特征图,这就使得现有的研究容易受到非目标变化的干扰、检测结果的细节信息丢失或语义信息不准确,最终导致变化检测结果不准确。论文论证道:变化检测任务需要同时关注变化区域的语义信息和空间细节信息,同时不同尺度的特征图包含不同的信息,如高层特征图语义信息丰富但空间细节信息丢失,低层特征图空间细节信息丰富但语义信息丢失。:计算拼接后特征图的查询 Q、键 K 和值 V,并通过加权求和的方式得到最终的融合特征图。
2025-03-04 10:00:00
910
原创 (即插即用模块-特征处理部分) 二十四、(2022 TPAMI) PoseBERT
现有的 3D 姿态估计方法主要依赖于 2D 标注数据,例如 2D 关键点或语义分割,而获取大规模的 3D 标注数据成本高昂且耗时。PoseBERT 的整体结构包括一个输入处理模块,将 3D 姿态序列嵌入到高维特征空间,并加入位置编码;以及一个训练损失函数,包括重构损失和去噪设计,用于生成平滑且一致的 3D 姿态序列。:Transformer 块的输出与当前的姿态估计(Mean Pose)进行拼接,并通过多层感知机(MLP)生成新的姿态增量。其中,自注意力机制捕捉输入序列中的时间依赖关系。
2025-03-03 10:00:00
440
原创 (即插即用模块-特征处理部分) 二十三、(2022 ICLR) OS-block
第一层和第二层的卷积核大小从 1 到 pk,其中 pk 是可以覆盖所有感受野大小的最小质数。通过不同层卷积核的组合,OS-Block 可以生成所有整数大小的感受野。具体来说,第一层和第二层可以生成所有偶数大小的感受野,第三层可以通过选择合适的 pk 来覆盖所有整数大小的感受野。这意味着,即使改变构成相同感受野大小的核大小,模型的性能也不会有太大变化。,其通过一种简单且通用的规则,自动设置 1D-CNN 的核大小,使其能够覆盖所有尺度的感受野,从而避免复杂的搜索工作并提高性能。
2025-03-02 10:38:13
592
原创 (即插即用模块-Attention部分) 六十、(2024) SCSA 空间通道协同注意力
通道和空间注意力分别为各种下游视觉任务的特征依赖性和空间结构关系提取带来了显著的改进。虽然两者的组合更有利于发挥各自的优势,但通道和空间注意力之间的协同作用尚未得到充分探索,还缺乏充分利用多语义信息的协同潜力,所以,论文提出一种新的 空间通道协同注意力模块(SCSA)。SCSA由两部分组成:**Shared Multi-Semantic Spatial Attention(SMSA )**和 Progressive Channel-wise Self-Attention(PCSA )。
2025-03-01 10:00:00
1306
原创 (即插即用模块-Attention部分) 五十九、(ECCV 2024) Agent Attention 代理注意力
自Vision Transformer问世以来,自注意力在计算机视觉领域取得了显著的进步。然而,之后的对于自注意力的研究都不可避免地限制了自注意力的全局接受域,阻碍了模型对远程关系进行建模的能力。而对于线性注意力,其与限制感受野的思想相反,是通过降低计算复杂度直接解决了计算挑战。在先前的线性注意力的研究中,像是采用深度卷积来保持特征多样性的方法虽然是有效的,但它们仍存在线性注意力有限的表达能力问题。
2025-02-28 10:00:00
1047
原创 (即插即用模块-Attention部分) 五十八、(2024 ICME) PPA 并行化补丁感知注意力
红外小目标检测是一项重要的计算机视觉任务,涉及到对红外图像中微小目标的识别和定位,而红外图像通常只包含几个像素。由于红外图像中目标的尺寸小,背景复杂等原因,使得红外图像处理技术遇到了困难。论文提出了一种 并行化补丁感知注意力(Parallelized Patch-Aware Attention)。在红外小目标检测任务中,小目标在多次下采样过程中容易丢失重要信息。而 PPA 的提出则替代了编码器和解码器基本组件中的传统卷积。
2025-02-27 10:41:31
1070
原创 (即插即用模块-Convolution部分) 十四、(2023) TAdaConv 时间自适应卷积
传统的视频理解模型,如基于卷积神经网络(CNN)和 Transformer 的模型,通常采用空间卷积操作来提取时空特征。这些模型假设时空不变性,即在不同的帧中使用相同的权重。然而,视频中的时空动态变化非常复杂,这种假设限制了模型的表达能力。为此,这篇论文提出一种 时间自适应卷积(Temporally-Adaptive Convolution)。
2025-02-26 10:44:58
632
原创 (即插即用模块-Attention部分) 五十七、(2023) TabAttention
在处理临床数据时,由于临床数据通常包含图像和表格数据,但现有的方法通常将它们分开处理,限制了信息交互和知识转移。同时,注意力机制已被证明可以显著提高深度学习模型的性能,但很少有研究将注意力模块与表格数据相结合。所以这篇论文提出一种 TabAttention 。旨在通过引入表格数据来增强卷积神经网络 (CNN) 的性能。
2025-02-25 11:01:48
939
原创 (即插即用模块-Attention部分) 五十六、(2023 WACV) Skip Attention 跳跃注意力
现有方法在融合编码器和解码器特征时,通常使用特征图拼接以及卷积操作,但卷积核权重固定,限制了语义信息的流动,导致深度预测不准确。为此,这篇论文提出一种 跳跃注意力(Skip Attention),Skip Attention 旨在解决这个问题,通过窗口化交叉注意力机制,有效地融合编码器和解码器特征,提高深度预测的准确性。
2025-02-24 10:27:33
532
原创 (即插即用模块-Attention部分) 五十五、(2023) ESRA 高效空间压缩注意力
在现有的研究中, 虽然Transformer在捕捉长距离依赖关系方面表现出色,但其模型参数量大、计算复杂度高,容易过拟合,限制了其在计算资源有限的场景下的应用。而现有改进方法的不足:如Swin Transformer,主要通过减少模型层数或注意力头数量来降低参数量和计算复杂度,但这种方法会牺牲模型的性能。:ESRA通过使用卷积操作将MHSA中的键和值压缩到更小的维度,从而减少参数量。,ESRA 通过使用卷积操作压缩多头自注意力(MHSA)中的键和值,从而降低模型参数量和计算复杂度,同时缓解过拟合问题。
2025-02-23 11:07:54
661
原创 (即插即用模块-Attention部分) 五十四、(ICCV 2023) ESSA 高效SCC核自注意力
其中,SCC 是一种鲁棒的光谱相似性度量,它能够有效地衡量两个光谱曲线之间的相关性,并具有平移不变性和缩放不变性,使其对阴影和遮挡等干扰因素不敏感。在ESSA的基础上,论文还提出一种基于 Transformer 的网络架构 ESSAformer ,专门用于高光谱图像超分辨率 (HSI-SR) 任务。: 传统自注意力机制的计算复杂度为 O(N^2),其中 N 为序列长度,这在高分辨率高光谱图像中会导致巨大的计算负担。,其旨在解决传统自注意力机制在高光谱图像中存在的计算复杂度高、数据效率低的问题。
2025-02-22 13:02:48
1003
原创 (即插即用模块-Attention部分) 五十三、(2023) MCA 多维度协同注意力
此外,现有的注意力机制往往引入了较高的模型复杂性和计算负担,限制了其在资源受限设备上的应用。MCA 通过提出了一种轻量级且高效的多维协同注意力机制,通过三个分支结构同时推理通道、高度和宽度维度上的注意力。: 使用全局平均池化和全局标准差池化聚合特征响应,并通过自适应组合机制将平均池化和标准差池化特征进行融合,增强特征描述符的信息性和可辨别性。MCA 的基本原理便是通过三条分支互相配合,具体来说,: 类似于通道分支,但聚合的是高度维度上的特征响应。: 类似于通道分支,但聚合的是宽度维度上的特征响应。
2025-02-21 13:56:40
663
原创 (即插即用模块-Attention部分) 五十二、(CVPR 2023) TKSA Top-K稀疏注意力
标准 Transformer 中的自注意力机制在图像去雨任务中存在一些局限性:全局信息交互:标准自注意力对所有查询-键对进行计算,容易引入无关信息,干扰特征聚合,影响图像细节恢复。冗余特征:全连接计算模式放大了较小的相似度权重,导致特征交互和聚合过程易受噪声影响,产生冗余或不相关的特征表示。为了解决这些问题,这篇论文提出一种 Top-k稀疏注意力(Top-K Sparse Attention)。
2025-02-20 11:03:36
950
原创 (即插即用模块-Attention部分) 五十一、(TPAMI 2022) EA 外部注意力
论文首先指出了现有的自注意力机制缺陷:计算复杂度高: 自注意力机制的计算复杂度为 O(N^2),难以直接应用于图像等大规模输入。忽略样本间关系: 自注意力机制仅关注单个样本内部元素之间的关系,忽略了不同样本之间的潜在关联,限制了其能力和灵活性。所以这篇论文提出一种 外部注意力(External Attention),希望通过外部注意力机制学习更具代表性的特征,同时降低计算成本。
2025-02-19 10:24:03
607
原创 (即插即用模块-Attention部分) 五十、(2021) SSA 简化自注意力
Transformer 模型在语音识别任务中表现出色,但模型复杂度较高,参数量巨大,导致解码延迟和部署困难。此外,现有的简化方法如全注意力层等,虽然能够减少模型大小,但性能损失较大。所以这篇论文为了解决以上短板,提出一种 简化自注意力(Simplified Self-Attention)。
2025-02-19 10:23:51
289
原创 (即插即用模块-特征处理部分) 二十二、(ICCV 2021) CrossNorm / SelfNorm 交叉/自 归一化
现有的传统归一化方法(如 Batch Normalization 和 Instance Normalization),其假设训练数据和测试数据来自同一分布,这在实际应用中往往不成立。这篇论文提出两种归一化方式 交叉归一化(CrossNorm )和 自归一化(SelfNorm ),CrossNorm 和 SelfNorm 旨在解决深度学习模型在面对数据分布变化时泛化能力不足的问题。
2025-02-09 14:19:22
688
原创 (即插即用模块-特征处理部分) 二十一、(NeurIPS 2021) Global Filter 全局滤波器
自注意力机制和纯 MLP 模型在视觉任务中展现出潜力,但计算复杂度高,难以扩展到高分辨率特征。而局部自注意力机制虽有效,但引入了人为选择和限制感受野。对此,论文首先分析了傅里叶变换,指出其是分析图像频谱信息的重要工具,具有对数线性复杂度,能够高效地处理全局信息。并基于此提出一种 全局滤波器(Global Filter)。
2025-02-04 14:39:52
545
原创 (即插即用模块-特征处理部分) 二十、(TPAMI 2022) Permute-MLP 置换MLP模块
传统的 MLP-like 模型(如 Mixer 和 ResMLP)在编码图像特征时,首先会将空间维度展平,但这会导致丢失重要的位置信息,从而限制了模型的表达能力。这篇论文提出一中 置换MLP模块(Permute-MLP layer),Permute-MLP 旨在解决这个问题,通过分别对高度和宽度维度进行编码,保留位置信息,从而更好地捕捉图像中的空间关系。
2025-02-01 16:30:12
597
原创 (即插即用模块-特征处理部分) 十九、(NeurIPS 2023) Prompt Block 提示生成 / 交互模块
现有的多退化图像恢复模型通常需要知道输入图像的退化类型,才能选择合适的模型进行恢复,这在实际应用中都是不太现实的。最后,现有的多退化图像恢复模型需要为每种退化类型和级别训练单独的模型,这会导致训练负担过重,且难以在资源受限的平台(如移动设备和边缘设备)上部署。为此,这篇论文提出一种 Prompt Block,其通过引入可学习的提示参数,将退化相关的信息编码到网络中,从而引导网络进行自适应的图像恢复。
2025-01-31 14:08:45
942
原创 (即插即用模块-特征处理部分) 十八、(TIM 2022) TIF Transformer交互融合模块
对于一些传统的特征融合方法(如简单拼接),这些会导致无法有效捕捉不同尺度特征之间的长程依赖和全局上下文信息,最终会导致分割性能受限。而现有基于Transformer的分割模型主要集中在编码器部分,而解码器仍然使用CNN,无法充分利用Transformer的优势。直接拼接多尺度特征会导致特征错位和语义差距,影响分割精度。为此,这篇论文提出一种 Transformer交互融合模块
2025-01-24 11:21:49
940
原创 (即插即用模块-Convolution部分) 十三、(ICCV 2023) UFFConv 无偏差快速傅里叶卷积
传统的 FFC 模型在图像分类等高级视觉任务中表现出色,但在图像修复等低级视觉任务中存在以下缺陷:频谱偏移: 频域中的 ReLU 操作会导致负值置零,从而破坏频谱统计信息,导致空间特征出现异常激活值和压缩有效特征值。意外空间激活: 频域中的线性层和 ReLU 操作可能导致空间特征中出现意外的异常激活值,从而引入伪影和压缩有效特征值。有限的频域感受野: FFC 模型中的 1x1 卷积仅计算相同频率的特征,而忽略了不同频率之间的关系,难以捕捉复杂内容。为此,这篇论文提出一种 无偏快速傅里叶卷积。
2025-01-23 13:34:23
1379
原创 (即插即用模块-Convolution部分) 十二、(AAAI 2020) TBConv 捆绑块卷积
这篇论文提出一种 绑定块卷积(Tied Block Convolution),旨在减少CNN模型冗余和提高效率的卷积方式。TBConv 通过共享更薄的滤波器在通道块之间来减少参数数量,同时保持甚至提升模型的性能。
2025-01-22 13:28:12
1013
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人