即插即用模块
文章平均质量分 93
AI模块裁缝
公众号【AI模块裁缝】,获取更多干货和资料!
持续分享AI领域实用即插即用代码模块、高效缝合创新技巧、前沿论文解读与实战经验,涵盖计算机视觉、多模态学习等等前沿方向。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SCI一区 即插即用 | 别只盯着Transformer!中矿大用「小波注意力」刷新SOTA,图像去噪效果炸裂!
本文提出了一种基于小波和自适应坐标注意力的精细残差网络(WACAFRN)用于图像去噪。该网络采用双分支结构,核心创新包括:1)自适应坐标注意力(ACA)模块,通过可学习缩放因子实现噪声的精准定位;2)小波注意力(WA)模块,利用频域信息保留图像细节;3)独立的噪声估计分支(NEB)增强噪声适应性。网络通过编码器-解码器架构实现特征提取与重建,最终融合双分支结果输出高质量去噪图像。实验表明,该方法在保持边缘细节的同时能有效去除各类噪声,计算效率较高,适用于多种图像复原任务。原创 2025-12-04 18:28:04 · 581 阅读 · 0 评论 -
ECCV 即插即用 | 性能暴涨!这个“小波卷积”模块,一行代码让你的ConvNeXt超越Swin
本文提出了一种基于小波变换的新型卷积层WTConv,通过多级小波分解将输入特征图转换到不同频率域,在各子带上执行小核卷积后再逆变换重建,实现了超大感受野与对数级参数增长的解耦。该方法可直接替代深度可分离卷积,在ConvNeXt等架构中即插即用。实验表明,WTConv不仅提升了图像分类、目标检测等任务的性能,还显著增强了模型鲁棒性和形状偏好,且参数量仅为传统大核卷积方法的一半以下。该设计为CNN模型提供了一种高效获取全局感受野的新思路。原创 2025-11-28 17:57:19 · 989 阅读 · 0 评论 -
Arxiv 即插即用 | MASAG:为跳跃连接装上“智能变焦镜头”,自适应感受野让分割更精准
摘要:MSA²Net提出了一种创新的医学图像分割网络,其核心创新是设计了多尺度自适应空间注意力门(MASAG)模块。该模块通过动态调整感受野和特征加权,显著提升了编码器-解码器间的特征融合效果。网络采用混合解码器架构,结合大核注意力模块和Transformer,实现了局部细节与全局上下文的协同建模。实验表明,MSA²Net在多种医学图像分割任务中性能优越,其轻量级的MASAG模块(仅占8%参数量)可作为即插即用组件增强现有U-Net类网络的跳跃连接性能,有效处理目标尺寸形状多变、边界不规则等挑战。原创 2025-11-26 18:16:03 · 918 阅读 · 0 评论 -
TGRS 即插即用 | GLVMamba双剑合璧!让模型兼具全局视野与局部精度,代码已开源!
本文提出GLVMamba模型,一种用于遥感图像分割的全局-局部视觉状态空间方法。核心创新包括:1)设计GLVSS模块,通过并行卷积分支和移位窗口机制,融合Mamba的全局建模能力与CNN局部特征提取优势;2)构建尺度感知金字塔池化模块(SCPP),自适应融合多尺度特征以解决"孔洞"和误检问题。模型采用编码器-解码器架构,其中编码器使用ResNet18+SCPP提取特征,解码器通过堆叠GLVSS模块重建特征。实验表明该方法在保持线性计算复杂度的同时,实现了高精度与高效率的平衡,适用于遥感图原创 2025-11-12 18:12:51 · 700 阅读 · 0 评论 -
TGRS 即插即用 | 超越传统U-Net!ASCNet融合小波变换与全局注意力,重新定义图像修复范式
本文提出ASCNet,一种红外图像去条纹的非对称采样校正网络。创新点包括:1)采用DWT下采样与像素重组上采样的非对称架构,避免传统小波U型网络的语义偏差;2)设计残差哈尔小波变换采样器,结合模型驱动与数据驱动优势;3)构建列非均匀性校正模块,通过多维度特征融合实现精准去噪。实验表明,该方法能有效消除条纹噪声并保留纹理细节,显著提升下游任务性能。ASCNet提供不同规模版本,兼顾性能与部署效率,适用于红外成像系统预处理。原创 2025-11-05 18:02:29 · 760 阅读 · 0 评论 -
ECCV 即插即用 | 频域全局视野 + 先验局部细节 = SOTA级图像修复!FADformer架构全解析
本文提出了FADformer框架,一种高效的频域图像去雨方法。核心创新包括:1)融合频域卷积混合器(FFCM)和先验门控前馈网络(PGFN)的Transformer架构,兼顾全局和局部特征建模;2)频域对比正则化(FCR)损失,利用带雨图像作为负样本增强去雨性能。实验表明,该方法在保持高效率的同时,显著超越现有最优模型。FCR模块作为即插即用的通用正则项,可广泛应用于图像恢复任务。原创 2025-11-04 18:17:43 · 944 阅读 · 0 评论 -
SCI一区 即插即用 | 清华开源FCB模块,用CNN架构实现全局感受野!
本文提出一种新型傅里叶卷积块(FCB)用于MRI重建,通过频域操作实现全局感受野,有效解决传统CNN感受野受限问题。创新点包括:1)将FCB与深度可分离卷积结合降低计算成本;2)采用两阶段训练策略,先学习局部特征再重参数化为频域核进行微调。实验表明,该模块可嵌入多种网络架构,在8-12倍高加速率下显著提升重建质量,PSNR和SSIM指标优于传统方法。FCB作为高效全局视野插件,能有效消除MRI欠采样造成的全局混叠伪影。原创 2025-10-30 16:58:19 · 961 阅读 · 0 评论 -
ECCV 2025 | 即插即用!这个「自调制」模块让你的CNN拥有Transformer全局视野,效果炸裂!
本文提出SMFANet,一种轻量级自调制特征聚合网络,用于高效图像超分辨率。核心创新包括:1)自调制特征聚合模块(SMFA),通过并行双分支结构协同建模局部细节与非局部依赖;2)高效自注意力近似机制(EASA),以低计算成本模拟自注意力;3)部分卷积前馈网络(PCFN),减少计算冗余。SMFANet在性能与效率间取得优异平衡,推理速度比SwinIR-light提升近10倍,同时模型复杂度仅为其43%,适用于移动设备等资源受限场景。该网络通过轻量化设计实现了高质量图像重建,为实时图像增强提供了有效解决方案。原创 2025-10-20 18:05:52 · 719 阅读 · 0 评论 -
Arxiv 2025 | 16G显存也能跑高分多模态!DFENet登顶SOTA,傅里叶变换让AI视觉更轻更快
本文提出了一种创新的深度傅里叶嵌入网络DFENet,用于RGB与热红外显著性目标检测。该网络首次采用纯傅里叶变换架构,设计了模态协同感知注意力、频率分解边缘感知块和傅里叶残差通道注意力块三个核心模块,并创新性地提出共聚焦频率损失函数。DFENet在标准GPU上即可高效处理高分辨率双模态输入,在四个主流基准数据集上超越15个现有模型,为多模态密集预测任务提供了高效精准的新范式。原创 2025-10-17 18:15:58 · 754 阅读 · 0 评论 -
SCI一区 | SAM2联手Mamba-SSM,炼成红外检测“火眼金睛”,SOTA性能登顶!
SAMamba框架创新性地结合了SAM2层级特征学习与Mamba选择性序列建模,为红外小目标检测提供高效解决方案。其核心包含三个创新模块:FS-Adapter实现自然图像到红外图像的高效领域适配;CSI模块通过并行Mamba处理以线性复杂度捕捉全局上下文;DPCF模块采用自适应门控机制保留多尺度融合中的小目标细节。该框架在军事、海事等领域的微小目标检测任务中展现出参数高效、计算量低、检测精度高的优势,显著提升了复杂背景下低信噪比目标的识别能力。实验表明,该方法在保持模型轻量化的同时实现了SOTA性能。原创 2025-10-15 17:44:19 · 890 阅读 · 0 评论 -
JCR 2025 | 注意力新卷王SCSA!浙大提出「协同注意力」,即插即用,性能全面超越CBAM
SCSA提出了一种新型空间与通道协同注意力机制,通过可共享多语义空间注意力(SMSA)和渐进式通道自注意力(PCSA)的协同设计,有效解决了现有注意力模块对多语义信息利用不足的问题。SMSA采用多尺度深度可分离卷积捕获空间先验,PCSA通过自注意力缓解语义差异。该模块在保持轻量化的同时,显著提升了模型在分类、检测、分割等任务中的性能,尤其擅长处理小目标、低光照等复杂场景。实验表明SCSA能更好地平衡精度与效率,具有优秀的泛化能力。原创 2025-10-13 18:08:48 · 1235 阅读 · 0 评论 -
arXiv 2025 | 多尺度线性注意的混合CNN-Transformer医学分割网络,即插即用,涨点起飞!
MSLAU-Net是一种混合CNN-Transformer的医学图像分割网络。其主要创新包括:1)多尺度线性注意力(MSLA)模块,通过并行卷积分支捕获不同尺度特征,结合线性注意力降低计算复杂度;2)分层编码器设计,浅层使用CNN模块提取局部特征,深层采用MSLA模块建模全局依赖;3)轻量级自顶向下解码器,高效融合多级特征。该网络在保持计算效率的同时增强了多尺度特征提取能力,适用于CT、MRI等多种医学图像分割任务。MSLA模块可单独使用,作为传统注意力的高效替代方案。原创 2025-09-24 15:25:33 · 1241 阅读 · 0 评论 -
EIsevier 2025 | 基于Mamba与选择性空-通道注意力的少样本轴承故障诊断,即插即用,涨点起飞!
SC-MambaFew: 基于Mamba和选择性空间-通道注意力的轴承故障少样本诊断 摘要:本文提出了一种新型端到端少样本学习框架SC-MambaFew,用于轴承故障诊断。该框架创新性地结合了Mamba架构和双重注意力机制:1)通过GL-Mamba模块增强空间特征提取;2)采用GLCA模块融合全局与局部通道注意力;3)设计选择性通道模块动态整合最具判别力的信息;4)引入协方差度量学习替代传统距离度量,提升模型泛化能力。实验表明,该方法在数据稀缺情况下(如1-shot/5-shot)仍能保持高诊断准确率,为工原创 2025-09-23 17:38:54 · 770 阅读 · 0 评论 -
arXiv 2025 | 紧凑自注意力模块,即插即用,涨点起飞!
GridFormer: 恶劣天气图像恢复的统一Transformer框架 摘要:本文提出GridFormer,一个基于Transformer的恶劣天气图像恢复统一框架。其核心创新包括:1)网格化结构设计,通过三行七列的网格实现多尺度特征交互;2)残差密集Transformer块(RDTB),促进特征重用;3)紧凑增强型自注意力机制,在通道维度计算注意力,将复杂度从O(N²)降至O(C²)。该框架在去雨、去雾、去雪等五项任务上均达到SOTA性能,同时保持较低计算成本。实验证明其作为通用图像恢复骨干的潜力,可有原创 2025-09-19 18:09:58 · 805 阅读 · 0 评论 -
TGRS 2025 | DIA 模块:融合全局与局部特征的可变形交互注意力,即插即用,涨点起飞!
本文提出了一种用于像素级分类的自适应双监督交叉深度依赖网络(ADCD-Net)。该网络采用两阶段混合监督策略:第一阶段通过自监督学习生成相似性语义特征作为先验知识;第二阶段利用这些知识指导监督分类任务。核心创新包括:1)深度时序Mamba模块(DTM-Module),将不同深度特征视为时序序列以捕捉跨层级依赖;2)可变形交互注意力模块(DIA-Module),通过动态梯度调整重构注意力掩码,增强关键空间位置信息表征。实验表明,该方法能有效缓解多模态数据间的语义差异,提升分类性能。DIA-Module可作为通原创 2025-09-12 17:09:18 · 760 阅读 · 0 评论 -
arXiv 2025 | 区域卷积神经网络,即插即用,涨点起飞!
本文提出StripR-CNN架构,针对遥感图像中细长目标检测难题,创新性地设计了大条带卷积方法。核心包括StripNet骨干网络和StripHead检测头,通过正交条带卷积有效捕获目标的各向异性特征,相比传统方法显著提升了细长目标的检测精度。该模块具有即插即用特性,可集成到多种检测框架中,特别适用于桥梁、船舶等细长目标的遥感图像分析,在降低计算成本的同时提高了定位和角度回归精度。实验证明其在不同检测框架中都能带来显著性能提升。原创 2025-09-10 12:02:47 · 721 阅读 · 0 评论 -
arXiv 2025 | 不加参数,性能飙升!加权卷积 wConv2D 登场,即插即用,涨点起飞!
本文提出了一种新型加权卷积算子(wConv2d),通过引入空间密度函数对标准卷积进行改进。该方法在不增加可训练参数的情况下,使卷积核能根据像素位置进行差分加权。实验证明,在CIFAR-100分类和DIV2K去噪任务中,该方法可显著提升VGG、ResNet等模型的性能(如VGG准确率提升10%)。该模块通过预计算密度函数实现高效计算,可直接替换标准卷积层,具有即插即用特性。代码实现展示了如何将密度函数与卷积核进行Hadamard积运算,保持输入输出维度不变。原创 2025-09-05 18:02:09 · 655 阅读 · 0 评论 -
TGRS 2025 | RHDWT:结合先验与语义的双分支下采样新思路,即插即用,涨点起飞
《ASCNet:非对称采样校正网络用于红外图像去条纹》提出了一种创新方法,通过非对称采样策略解决传统小波网络中的语义偏差问题。该网络采用残差哈尔小波变换(RHDWT)作为下采样器,结合模型驱动和数据驱动方法;在上采样阶段使用像素重组(PixelShuffle)代替传统逆小波变换,有效保持列语义连续性。此外,设计的列非均匀性校正模块(CNCM)通过多分支注意力机制增强了全局列特征表示。实验表明,ASCNet能有效去除多种条纹噪声,保留图像细节,并显著提升下游任务性能。该方法在红外图像处理领域具有广泛应用前景。原创 2025-09-02 14:22:19 · 702 阅读 · 0 评论 -
TGRS 2025 | 信息集成注意力(IIA)模块,即插即用型全局–局部特征增强方案!
本文提出了一种轻量级语义分割网络UMFormer,基于自注意力机制和状态空间模型,用于高效城市场景分割。其核心创新包括:1)多尺度自注意力模块(MSAM)挖掘不同尺度物体的长距离上下文信息;2)信息集成注意力机制(IIA)重构空间位置关系;3)全局-局部视觉状态空间模块(GL-VSSBlock)并行提取全局和局部信息。该网络采用编码器-解码器架构,结合ResNet18编码器和Mamba解码器,通过特征融合实现精确分割。特别设计的GL-VSS模块具有广泛适用性,可替代传统解码器,在保持轻量化的同时提升分割性能原创 2025-08-27 12:05:24 · 1060 阅读 · 0 评论 -
Elsevier 2025 | 空域双向特征增强器,即插即用,涨点起飞!
Flora-NET提出了一种融合双坐标注意力与自适应核卷积的药用花卉识别方法。核心创新包括:1)双坐标注意力特征提取模块(DCAFE),通过并行最大/平均池化增强特征区分度;2)基于Involution的特征精炼模块(Inv-FR),利用动态卷积核提升空间上下文捕捉能力。该方法在两个公开数据集上准确率分别提升6.50%和5.59%,验证了其优越性能。该技术适用于精细化视觉分类任务,如药用植物鉴定、生物多样性研究等,具有特征自适应性好、鲁棒性强等优势。文中还提供了可即插即用的模块实现代码。原创 2025-08-26 12:10:38 · 892 阅读 · 0 评论 -
arXiv 2025 | 差分注意力模块,即插即用,让模型自动屏蔽噪声!
DiffCLIP创新性地将差分注意力机制引入CLIP模型,通过相减两个互补的注意力图来抑制噪声信号。该方法在图像分类、跨模态检索等任务上显著提升性能,参数量仅增加0.003%。核心模块DiffAttention将查询和键拆分计算双重注意力,并引入可学习的λ参数进行动态调整。实验表明,该机制能有效增强模型对核心特征的关注能力,提升跨模态对齐精度和鲁棒性,为多模态学习提供了高效改进路径。原创 2025-08-25 11:52:18 · 930 阅读 · 0 评论 -
arXiv 2025 | 轻量级分组注意力模块,即插即用,涨点起飞!
本文提出了一种轻量级群组注意力骨干网络LWGANet,用于遥感视觉任务。该网络的核心创新是轻量级群组注意力(LWGA)模块,通过特征分组并行处理,高效提取并融合从局部到全局的多尺度空间信息,解决遥感图像中目标尺度差异大的问题。LWGA模块集成了四种针对不同尺度的注意力子模块,协同工作以捕捉不同尺寸目标特征。实验表明,LWGANet在12个遥感数据集上的场景分类、目标检测、语义分割和变化检测任务中,在保持低计算复杂度的同时实现了最优性能。该网络特别适合部署在资源受限设备上,平衡了性能与计算效率。原创 2025-08-19 17:16:35 · 1361 阅读 · 0 评论 -
IEEE 2025 | 重磅开源!SLAM框架用“法向量+LRU缓存”,将三维重建效率飙升72%!
本文提出II-NVM模块,通过法向量一致性映射显著提升SLAM系统的地图精度。该模块采用自适应半径KD树法向量计算、增量式体素地图管理和LRU缓存策略,有效解决"双面映射问题"。实验表明,II-NVM在15cm薄墙场景下轨迹误差仅0.0179m,墙厚测量误差<1%,同时通过LRU策略将地图更新时间减少72.85%。该模块可即插即用地应用于室内三维重建、机器人导航等任务,代码已开源。原创 2025-08-12 17:16:23 · 1498 阅读 · 0 评论 -
TNNLS 2025 | 可变形卷积+可变形空间注意力机制,即插即用!
本文提出了一种轻量级可变形卷积神经网络DSAN,通过优化DCNv3的核心操作和特征提取模块,解决了现有方法在轻量级设备上的适配难题。核心创新包括:可变形条纹卷积(DSCN)简化计算,可变形空间注意力(DSA)增强特征提取,以及轻量级骨干网络DSAN的构建。实验表明,DSAN在图像分类、语义分割和目标检测任务中表现优异,以更少的参数和计算量实现了与重量级模型相当的性能。例如,DSAN-S在ImageNet1K上达到82.3%的准确率,在ADE20K语义分割任务中mIoU达48.8%,为轻量级设备部署高性能视觉原创 2025-08-06 15:44:04 · 1629 阅读 · 0 评论 -
【ACL 2025】大语言模型 + 知识图谱双加持!即插即用,SeedBench 准确率暴涨 15% 刷新 AI SOTA!
本文提出ROGRAG框架,通过多阶段检索机制和增量知识图谱构建优化GraphRAG系统。该框架整合双层次检索(模糊匹配实体和关系)与逻辑形式检索(结构化推理),结合论证检查验证,显著提升了检索鲁棒性。实验表明,ROGRAG在SeedBench上使Qwen2.5-7B-Instruct的准确率从60%提升至75%,优于主流方法。消融研究验证了各组件有效性,特别是增量知识图谱构建使节点数增加40%,准确率提升13%,为专业领域知识增强提供了有效解决方案。原创 2025-07-28 18:10:41 · 1786 阅读 · 0 评论 -
复旦x腾讯优图提出PixelPonder 框架,即插即用,从草图到成品一键搞定!
本文提出PixelPonder框架,解决多视觉条件文本生成图像时的控制冲突问题。该框架通过补丁级自适应选择机制动态整合不同视觉条件,并结合时间感知控制实现从结构到纹理的渐进式调节。实验表明,PixelPonder在MultiGen-20M和Subject-200K数据集上显著优于现有方法,SSIM提升8.41%-19.29%,FID达10.61-11.85,同时在保持文本一致性和图像质量方面表现优异。可视化结果证实,该方法能有效避免线条粗糙、主体扭曲等问题,实现多条件协调控制。原创 2025-07-21 18:09:46 · 684 阅读 · 0 评论 -
以前的 SOTA 弱爆了!双坐标注意力 + 内卷网络碾压药用花卉分类,准确率狂涨 6%+,轻量且涨点!
摘要 本文提出Flora-NET模型,用于解决药用花卉分类难题。该模型创新性地融合双坐标注意力(DCAFE)和反卷积特征细化(Inv-FR)模块,通过并行池化增强特征判别性,并利用自适应核动态优化空间特征。实验表明,Flora-NET在Urban Street和Medicinal Blossom数据集上分别达到91.12%和91.18%的准确率,较VGGNet-16提升6.94%和5.71%。消融实验验证了核心模块的有效性,可视化分析显示模型能精准聚焦花瓣等关键区域。第三方数据集测试(83.57%准确率)进原创 2025-07-14 10:53:17 · 636 阅读 · 0 评论 -
【TCSVT 2025】边缘-高斯多模态融合LEGNet,轻量遥感目标检测架构,即插即用!
本文介绍了一种名为LEGNet(Lightweight Edge-Gaussian Driven Network)的轻量级骨干网络,专门用于低质量遥感图像中的目标检测任务。遥感目标检测(RSOD)常常受到低空间分辨率、传感器噪声、运动模糊和光照不良等因素的干扰,导致特征区分度降低,目标表示模糊,前景与背景难以分离。现有的RSOD方法在低质量目标的鲁棒检测方面存在局限性。原创 2025-07-11 10:44:41 · 1327 阅读 · 0 评论 -
即插即用模块:GRFormer分组残差自注意力+指数位置编码,轻量超分新标杆!直接涨点起飞
摘要 本文提出GRFormer,一种轻量化单图像超分辨率(SISR)模型,通过创新的分组残差自注意力(GRSA)机制解决传统Transformer模型的高计算复杂度问题。GRSA包含分组残差层(GRL)和指数空间相对位置偏置(ES-RPB),分别优化QKV线性层的效率和位置编码,显著降低参数量和计算开销。实验表明,GRFormer仅需SwinIR 20%的参数量,在DIV2K数据集上PSNR提升最高0.23dB,同时计算成本降低49%。该模型为资源受限场景下的高效超分辨率任务提供了新范式,兼顾性能与效率。原创 2025-07-06 12:15:00 · 1217 阅读 · 0 评论
分享