自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 SCI一区 即插即用 | 别只盯着Transformer!中矿大用「小波注意力」刷新SOTA,图像去噪效果炸裂!

本文提出了一种基于小波和自适应坐标注意力的精细残差网络(WACAFRN)用于图像去噪。该网络采用双分支结构,核心创新包括:1)自适应坐标注意力(ACA)模块,通过可学习缩放因子实现噪声的精准定位;2)小波注意力(WA)模块,利用频域信息保留图像细节;3)独立的噪声估计分支(NEB)增强噪声适应性。网络通过编码器-解码器架构实现特征提取与重建,最终融合双分支结果输出高质量去噪图像。实验表明,该方法在保持边缘细节的同时能有效去除各类噪声,计算效率较高,适用于多种图像复原任务。

2025-12-04 18:28:04 576

原创 AAAI 即插即用 | 告别标准卷积!这个“风车”算子PConv,让你的YOLO模型在红外“鬼影”中精准索敌

本文提出了一种红外小目标检测的创新方法,通过风车形卷积(PConv)和基于尺度的动态损失(SDLoss)提升检测性能。PConv采用非对称卷积核模拟目标高斯分布特性,在少量参数增加下显著扩大感受野;SDLoss根据目标尺度动态调整位置与尺度损失的权重,有效缓解标签噪声影响。实验验证了方法在多个模型和数据集上的有效性,并构建了新的SIRST-UAVB基准数据集。该研究为红外小目标检测提供了高效且通用的解决方案。

2025-12-01 17:43:28 608

原创 ECCV 即插即用 | 性能暴涨!这个“小波卷积”模块,一行代码让你的ConvNeXt超越Swin

本文提出了一种基于小波变换的新型卷积层WTConv,通过多级小波分解将输入特征图转换到不同频率域,在各子带上执行小核卷积后再逆变换重建,实现了超大感受野与对数级参数增长的解耦。该方法可直接替代深度可分离卷积,在ConvNeXt等架构中即插即用。实验表明,WTConv不仅提升了图像分类、目标检测等任务的性能,还显著增强了模型鲁棒性和形状偏好,且参数量仅为传统大核卷积方法的一半以下。该设计为CNN模型提供了一种高效获取全局感受野的新思路。

2025-11-28 17:57:19 979

原创 Arxiv 即插即用 | MASAG:为跳跃连接装上“智能变焦镜头”,自适应感受野让分割更精准

摘要:MSA²Net提出了一种创新的医学图像分割网络,其核心创新是设计了多尺度自适应空间注意力门(MASAG)模块。该模块通过动态调整感受野和特征加权,显著提升了编码器-解码器间的特征融合效果。网络采用混合解码器架构,结合大核注意力模块和Transformer,实现了局部细节与全局上下文的协同建模。实验表明,MSA²Net在多种医学图像分割任务中性能优越,其轻量级的MASAG模块(仅占8%参数量)可作为即插即用组件增强现有U-Net类网络的跳跃连接性能,有效处理目标尺寸形状多变、边界不规则等挑战。

2025-11-26 18:16:03 892

原创 AAAI 即插即用 | DRM:提升模型鲁棒性与特征质量的即插即用Transformer模块

摘要:本文提出A2RNet,一种针对红外与可见光图像融合(IVIF)任务的对抗攻击弹性网络。针对IVIF无监督特性,创新性地设计了包含伪标签和反攻击损失函数的对抗训练范式。网络采用U-Net骨干结构,嵌入基于Transformer的防御性精炼模块(DRM),通过鲁棒自注意力机制增强特征表示和抗噪能力。实验表明,该方法不仅能生成高质量融合图像,还能有效保持下游目标检测和语义分割任务的性能稳定性,为融合领域的对抗攻防研究提供了新思路。

2025-11-24 18:09:17 574

原创 CVPR 即插即用 | 当RetNet遇见ViT:一场来自曼哈顿的注意力革命,中科院刷新SOTA性能榜!

本文提出了一种新型视觉Transformer架构RMT,其核心创新是曼哈顿自注意力(MaSA)模块。MaSA通过引入基于曼哈顿距离的空间衰减矩阵,为自注意力机制注入显式空间先验知识,并采用轴向分解方法将计算复杂度降至线性级别。实验表明,基于MaSA构建的RMT网络在图像分类、目标检测和分割等多个任务上取得SOTA性能,同时保持了全局感受野和高效计算特性。该模块可广泛替代标准自注意力,有效平衡模型性能与计算效率。

2025-11-21 17:59:27 749

原创 CVPR 即插即用 | YOLO霸权终结?百度 x 北大联手,RT-DETR用Transformer架构实现性能起飞!

RT-DETR:首个实时端到端目标检测器超越YOLO RT-DETR在实时目标检测领域取得突破,成为首个在速度和精度上均超越YOLO系列的端到端检测器。其创新点包括:1)高效混合编码器通过解耦尺度内交互与跨尺度融合,大幅降低计算成本;2)不确定性最小查询选择机制优化初始查询质量;3)支持灵活调整解码器层数以适应不同实时需求。实验表明,RT-DETR-R50在T4 GPU上达到108FPS,比同精度YOLOv8-L快52%,同时精度提升0.2%AP。该技术完全消除NMS后处理瓶颈,为自动驾驶、工业质检等实时检

2025-11-14 17:35:05 816

原创 TGRS 即插即用 | GLVMamba双剑合璧!让模型兼具全局视野与局部精度,代码已开源!

本文提出GLVMamba模型,一种用于遥感图像分割的全局-局部视觉状态空间方法。核心创新包括:1)设计GLVSS模块,通过并行卷积分支和移位窗口机制,融合Mamba的全局建模能力与CNN局部特征提取优势;2)构建尺度感知金字塔池化模块(SCPP),自适应融合多尺度特征以解决"孔洞"和误检问题。模型采用编码器-解码器架构,其中编码器使用ResNet18+SCPP提取特征,解码器通过堆叠GLVSS模块重建特征。实验表明该方法在保持线性计算复杂度的同时,实现了高精度与高效率的平衡,适用于遥感图

2025-11-12 18:12:51 687

原创 CVPR 即插即用 | 一行代码,让你的CNN提速1.6倍!NUS开源Inception深度卷积模块

摘要:论文《InceptionNeXt: When Inception Meets ConvNeXt》提出了一种高效的Inception深度卷积算子,替代传统大核深度卷积以提升模型速度。该算子将计算分解为四个并行分支(3x3卷积、1xk和kx1条形卷积、恒等映射),在通道维度上拼接结果。基于此构建的InceptionNeXt模型在图像分类等任务中,相比ConvNeXt实现了更优的速度-精度平衡(如InceptionNeXt-T训练吞吐量提升1.6倍,精度提高0.2%)。核心创新在于通过多分支小核组合模拟大感

2025-11-10 15:49:27 679

原创 AAAI 即插即用 | SCTNet让CNN白嫖Transformer语义能力,推理开销为零!

本文提出SCTNet新型实时语义分割架构,通过"训练双分支、推理单分支"的创新设计,在保持CNN高效推理的同时提升性能。关键创新包括:(1)设计CFBlock模块,用卷积操作模拟Transformer的全局特征提取能力;(2)提出SIAM对齐模块,通过特征和语义层级知识迁移,将Transformer分支的语义信息高效蒸馏到CNN分支。实验表明,该方法在Cityscapes等数据集上实现速度与精度的SOTA平衡,特别适用于自动驾驶等实时场景。推理阶段仅需轻量CNN单分支,显著降低部署成本。

2025-11-06 17:52:11 886

原创 TGRS 即插即用 | 超越传统U-Net!ASCNet融合小波变换与全局注意力,重新定义图像修复范式

本文提出ASCNet,一种红外图像去条纹的非对称采样校正网络。创新点包括:1)采用DWT下采样与像素重组上采样的非对称架构,避免传统小波U型网络的语义偏差;2)设计残差哈尔小波变换采样器,结合模型驱动与数据驱动优势;3)构建列非均匀性校正模块,通过多维度特征融合实现精准去噪。实验表明,该方法能有效消除条纹噪声并保留纹理细节,显著提升下游任务性能。ASCNet提供不同规模版本,兼顾性能与部署效率,适用于红外成像系统预处理。

2025-11-05 18:02:29 754

原创 ECCV 即插即用 | 频域全局视野 + 先验局部细节 = SOTA级图像修复!FADformer架构全解析

本文提出了FADformer框架,一种高效的频域图像去雨方法。核心创新包括:1)融合频域卷积混合器(FFCM)和先验门控前馈网络(PGFN)的Transformer架构,兼顾全局和局部特征建模;2)频域对比正则化(FCR)损失,利用带雨图像作为负样本增强去雨性能。实验表明,该方法在保持高效率的同时,显著超越现有最优模型。FCR模块作为即插即用的通用正则项,可广泛应用于图像恢复任务。

2025-11-04 18:17:43 931

原创 CVPR 即插即用 | 医学分割新SOTA:MCADS解码器登场,完胜传统Transformer架构!

本文提出了一种新型MCADS解码器架构,用于提升生物标志物分割精度。该解码器采用深度到空间上采样(DSUB)防止信息丢失,并设计残差线性注意力(RLAB)和通道空间注意力(CASAB)模块来优化特征融合。实验表明,MCADS解码器与多种编码器兼容,能显著改善边界细节保留,在多个医学图像分割任务上超越现有方法。其即插即用特性使其可广泛应用于计算病理学、临床诊断等领域。

2025-11-03 18:05:49 992

原创 CVPR 即插即用 | 浙大给Attention装上“语义眼”,Transformer/Diffusion秒懂分区上色!

本文提出一种即插即用的语义连续-稀疏注意力模块(SCSA),用于解决现有基于注意力的图像风格迁移方法在语义对齐方面的不足。SCSA包含三个核心组件:1)语义自适应实例归一化(S-AdaIN)实现初步语义风格对齐;2)语义连续注意力(SCA)捕捉整体连续风格;3)语义稀疏注意力(SSA)提取精细纹理特征。实验表明,SCSA无需额外训练即可无缝集成到CNN、Transformer和Diffusion等多种架构中,显著提升语义风格迁移效果。该模块通过"整体看风格,局部抄纹理"的策略,实现了精准

2025-10-31 18:09:53 789

原创 SCI一区 即插即用 | 清华开源FCB模块,用CNN架构实现全局感受野!

本文提出一种新型傅里叶卷积块(FCB)用于MRI重建,通过频域操作实现全局感受野,有效解决传统CNN感受野受限问题。创新点包括:1)将FCB与深度可分离卷积结合降低计算成本;2)采用两阶段训练策略,先学习局部特征再重参数化为频域核进行微调。实验表明,该模块可嵌入多种网络架构,在8-12倍高加速率下显著提升重建质量,PSNR和SSIM指标优于传统方法。FCB作为高效全局视野插件,能有效消除MRI欠采样造成的全局混叠伪影。

2025-10-30 16:58:19 955

原创 CVPR 即插即用 | PConv:重新定义高效卷积,一个让模型“跑”得更快、更省的新范式

本文提出了一种新型卷积算子PConv和高速网络FasterNet。核心创新在于:1)突破传统单纯优化FLOPs的思路,提出提升每秒浮点运算次数(FLOPS)才是加速关键;2)设计部分卷积(PConv),仅处理1/4输入通道,大幅减少计算量和内存访问;3)构建简洁的FasterNet架构,在多个硬件平台实现顶尖推理速度。PConv通过利用通道冗余性,结合后续PWConv形成T形计算模式,比DWConv更具硬件效率。实验表明该方法在各类视觉任务中兼具速度和精度优势,是轻量级网络设计的理想选择。

2025-10-29 15:43:03 1052

原创 CVPR 即插即用 | 快到离谱!SwiftFormer刷新Transformer手机端速度极限!!

SwiftFormer提出了一种高效的加性注意力机制,通过线性逐元素乘法替代传统Transformer中的二次方复杂度矩阵乘法,显著降低了计算开销。该模型创新性地简化了注意力流程,移除了键-值交互步骤,仅保留查询-键交互加线性变换,实现了线性复杂度的全局上下文建模。该架构首次将注意力机制成功应用于所有网络阶段,构建了混合CNN-Transformer模型,在移动设备上实现了SOTA的性能平衡。实验表明,SwiftFormer在iPhone14上仅用0.8ms延迟即达到78.5%准确率,比Mobil

2025-10-28 17:42:06 674

原创 CVPR 即插即用 | 模态无关的分割利器!MFMSA注意力模块,永久开源!

摘要:本文提出MADGNet,一种模态无关的域泛化医学图像分割网络。其核心创新包括:1)多尺度多频注意力模块(MFMSA),通过频率分析抑制噪声并利用多尺度信息捕捉边界特征;2)集成子解码模块(E-SDM),通过逆向信息流补偿上采样损失。该网络在多种医学图像模态(如皮肤镜、超声、显微图像等)上展现出优异的泛化能力,有效解决了跨模态和跨中心应用中的分割问题。实验表明,该方法在噪声鲁棒性、边界精度和信息保留方面均有显著提升。

2025-10-24 17:11:21 878

原创 CVPR 即插即用 | AIGC新思路?用“知识互补”生成神级伪标签,彻底告别医学影像标注焦虑!

本文提出SKCDF框架,创新性地解决半监督医学图像分割中的伪标签噪声和类别不平衡问题。核心贡献包括:1)解耦数据流设计,分离有/无标签数据训练路径,保护解码器免受低质量伪标签影响;2)语义知识互补模块,通过跨流注意力实现特征相互增强;3)辅助平衡分割头策略,基于伯努利分布重点学习小器官特征。实验表明,该方法在Synapse数据集上Dice系数平均提升19.61%,显著提升小目标分割性能。该框架可推广至其他需利用无标签数据的视觉分割任务。

2025-10-23 12:28:07 969

原创 AAAI 2025 | 即插即用,川大Mesorch刷新SOTA,用「介观」Transformer架构终结图像造假

本文提出Mesorch混合架构,创新性地结合CNN与Transformer并行处理图像篡改定位任务。通过离散余弦变换分离高低频信息,分别利用CNN捕捉微观痕迹和Transformer理解宏观语义,在多尺度上协同分析。核心创新包括自适应加权模块动态调整特征重要性,以及剪枝机制降低计算成本。实验表明,该架构在四个公开数据集上实现了SOTA性能,在F1分数、鲁棒性和计算效率方面均超越现有方法。该技术为数字媒体取证提供了高效解决方案,可应用于新闻真实性核查、司法鉴定等场景,同时其设计思想可迁移至其他密集预测任务。

2025-10-22 18:09:40 870

原创 CVPR 2025 | 即插即用,INP-Former让Transformer学会“内部对比”,告别数据错位难题

本文提出了一种基于单张图像内在正常原型(INP)的通用异常检测方法INP-Former。该方法创新性地证明了测试图像自身包含可用于异常检测的正常原型,通过动态提取这些INP并指导特征重建,有效解决了传统方法中训练与测试数据不匹配的问题。INP-Former包含可学习的INP提取器和引导解码器,并引入INP一致性损失和软挖掘损失优化模型性能。实验表明,该方法在单类别、多类别和少样本异常检测任务中均达到顶尖水平,具备较强的通用性和零样本检测能力。该技术可广泛应用于工业质检和医疗影像等领域,为异常检测提供了新的解

2025-10-21 18:04:46 861

原创 ECCV 2025 | 即插即用!这个「自调制」模块让你的CNN拥有Transformer全局视野,效果炸裂!

本文提出SMFANet,一种轻量级自调制特征聚合网络,用于高效图像超分辨率。核心创新包括:1)自调制特征聚合模块(SMFA),通过并行双分支结构协同建模局部细节与非局部依赖;2)高效自注意力近似机制(EASA),以低计算成本模拟自注意力;3)部分卷积前馈网络(PCFN),减少计算冗余。SMFANet在性能与效率间取得优异平衡,推理速度比SwinIR-light提升近10倍,同时模型复杂度仅为其43%,适用于移动设备等资源受限场景。该网络通过轻量化设计实现了高质量图像重建,为实时图像增强提供了有效解决方案。

2025-10-20 18:05:52 711

原创 Arxiv 2025 | 16G显存也能跑高分多模态!DFENet登顶SOTA,傅里叶变换让AI视觉更轻更快

本文提出了一种创新的深度傅里叶嵌入网络DFENet,用于RGB与热红外显著性目标检测。该网络首次采用纯傅里叶变换架构,设计了模态协同感知注意力、频率分解边缘感知块和傅里叶残差通道注意力块三个核心模块,并创新性地提出共聚焦频率损失函数。DFENet在标准GPU上即可高效处理高分辨率双模态输入,在四个主流基准数据集上超越15个现有模型,为多模态密集预测任务提供了高效精准的新范式。

2025-10-17 18:15:58 726

原创 AAAI 2025 | 即插即用,计算量砍掉80%!超轻量SparseViT刷新SOTA,重新定义Transformer图像取证

【摘要】本文提出SparseViT模型,通过稀疏自注意力机制实现非语义特征的自适应学习,用于图像篡改定位任务。核心创新包括:1)设计稀疏自注意力模块,将全局注意力分解为局部子块计算,抑制语义信息而专注篡改痕迹;2)分层多尺度稀疏策略,在不同层级采用递减的稀疏率提取特征;3)轻量级可学习预测头(LFF)实现自适应特征融合。实验表明,该方法在参数效率提升80%的同时达到SOTA性能,打破了传统依赖手工特征的限制。该模块可扩展至数字取证、AI生成内容检测等需关注非语义伪影的任务。

2025-10-16 17:41:35 622

原创 SCI一区 | SAM2联手Mamba-SSM,炼成红外检测“火眼金睛”,SOTA性能登顶!

SAMamba框架创新性地结合了SAM2层级特征学习与Mamba选择性序列建模,为红外小目标检测提供高效解决方案。其核心包含三个创新模块:FS-Adapter实现自然图像到红外图像的高效领域适配;CSI模块通过并行Mamba处理以线性复杂度捕捉全局上下文;DPCF模块采用自适应门控机制保留多尺度融合中的小目标细节。该框架在军事、海事等领域的微小目标检测任务中展现出参数高效、计算量低、检测精度高的优势,显著提升了复杂背景下低信噪比目标的识别能力。实验表明,该方法在保持模型轻量化的同时实现了SOTA性能。

2025-10-15 17:44:19 872

原创 AAAI 2025 | 即插即用!AMD框架让你的旧模型学会“多尺度”思考,预测精度飙升

本文提出了一种自适应多尺度分解框架(AMD)用于时间序列预测,核心创新包括:1)通过多尺度分解混合模块(MDM)将时序数据分解为不同粒度的模式;2)采用双重依赖交互模块(DDI)平衡时序和通道依赖;3)设计自适应多预测器合成模块(AMS)动态加权主导模式。该方法基于纯MLP架构,在保持高效的同时显著优于Transformer模型。实验表明,该框架可提升基础模型在电力、交通等领域的预测性能,并增强模型可解释性。关键代码展示了DDI模块的实现,通过补丁处理和时间/通道混合有效建模时序依赖。

2025-10-14 17:13:26 1028

原创 JCR 2025 | 注意力新卷王SCSA!浙大提出「协同注意力」,即插即用,性能全面超越CBAM

SCSA提出了一种新型空间与通道协同注意力机制,通过可共享多语义空间注意力(SMSA)和渐进式通道自注意力(PCSA)的协同设计,有效解决了现有注意力模块对多语义信息利用不足的问题。SMSA采用多尺度深度可分离卷积捕获空间先验,PCSA通过自注意力缓解语义差异。该模块在保持轻量化的同时,显著提升了模型在分类、检测、分割等任务中的性能,尤其擅长处理小目标、低光照等复杂场景。实验表明SCSA能更好地平衡精度与效率,具有优秀的泛化能力。

2025-10-13 18:08:48 1222

原创 AAAI 2025 | 即插即用,性能登顶!新一代医学分割模型ConDSeg已开源,一行代码搞定病灶识别

ConDSeg是一种新型医学图像分割框架,通过对比驱动特征增强技术提升分割性能。其核心创新包括:1)两阶段一致性强化训练策略,增强模型在弱光等恶劣条件下的鲁棒性;2)语义信息解耦模块,将特征分解为前景、背景和不确定区域;3)对比驱动特征聚合模块,利用解耦信息指导特征融合;4)尺寸感知解码器解决医学图像中的共生现象问题。实验表明,该方法在多个公开数据集上达到最优性能。该框架适用于内窥镜、皮肤镜等多种医学图像分割任务,能有效处理边界模糊和共生干扰问题。

2025-10-11 16:49:23 1115

原创 CVPR 2024 | 性能狂飙11%!双流互补网络BMCNet,重新定义事件流超分新SOTA!

本文提出了一种用于事件流超分辨率(ESR)的双流互补网络BMCNet。该方法的核心创新包括:1)设计双流网络分别处理正负极性事件,并利用双边信息交换模块(BIE)实现流间互补;2)BIE模块通过通道维度交互避免空间噪声干扰,有效交换全局结构信息;3)在合成和真实数据集上性能提升超过11%,且能增强下游任务表现。网络采用层级化结构,通过流内和流间BIE模块融合时空信息,并引入跨层交互表示增强特征提取。实验表明该方法在保持计算效率的同时,显著提升了超分辨率质量和下游任务性能。

2025-10-10 17:42:09 1087

原创 CVPR 2025 | 频率动态卷积FDConv,标准卷积的完美替代,即插即用,高效涨点!

本文提出了一种基于频率动态卷积(FDConv)的新型卷积框架,用于解决传统动态卷积存在的频率冗余问题。通过傅里叶不相交权重(FDW)模块在频域划分参数,以固定参数预算生成多样化权重;结合核空间调制(KSM)和频带调制(FBM)实现精细动态调整。该方法仅增加3.6M参数,即可超越参数量更大的现有方法,并能无缝集成到ConvNets和Transformer等多种架构中,显著提升了密集预测任务的性能。

2025-10-09 16:28:27 750

原创 CVPR 2025 | 当Transformer遇上傅里叶变换:CDF-UIE刷新水下图像增强SOTA,跨域注意力机制是关键!

本文提出了一种新型跨域融合水下图像增强网络CDF-UIE。该模型通过创新的空间-频率解耦(SFD)模块将输入图像特征分离到空间域和频率域进行针对性处理,并设计跨域融合(CDF)模块利用注意力机制实现双域特征的动态融合。实验表明,该方法能有效提升水下图像的清晰度,在保留精细细节的同时校正色彩失真,显著优于现有方法。核心模块包括特征解耦器和跨域调制器,适用于各类图像增强任务,为复杂退化场景下的图像恢复提供了新思路。

2025-09-30 16:28:57 883

原创 CVPR 2025 | 卷积核也能“看”全局!港大提出ContMix模块,为ConvNet注入长距离依赖建模的魔法

本文提出OverLoCK架构,一种模仿人类视觉机制的纯卷积网络。该架构通过深度阶段分解策略(DDS)将网络分为基础网络(Base-Net)、概览网络(Overview-Net)和聚焦网络(Focus-Net),模拟"先概览后细看"的视觉处理流程。核心创新是上下文混合动态卷积(ContMix),通过将全局上下文信息注入卷积核,在保持卷积局部优势的同时实现长距离依赖建模。该架构在图像分类、目标检测等任务中表现优异,尤其适合高分辨率输入场景。

2025-09-29 17:19:03 728

原创 ICCV 2025 | 大核卷积的完美替代!多层中核卷积模块RFA,有效扩大感受野,实现高效涨点!

《UniConvNet:一种兼顾感受野与高斯分布的通用卷积网络》 本文提出了一种新型卷积神经网络架构UniConvNet,通过创新性地设计感受野聚合器(RFA)模块,解决了传统方法在扩大感受野时破坏渐近高斯分布(AGD)的问题。该方法采用组合较小卷积核(7x7至11x11)的策略,在三个关键方面实现突破:1)通过三层RFA模块实现感受野的递归扩展;2)设计包含放大器和判别器的层算子(LO)单元,构建多层高斯分布;3)提出通道分头处理的递归金字塔结构,有效平衡计算成本与性能。实验表明,UniConvNet在图

2025-09-28 18:13:08 664

原创 ICCV 2025 | 轻量级SR神器:ConvAttn用卷积重塑自注意力,即插即用,涨点起飞!

本文提出了一种高效卷积注意力模块(ConvAttn),通过共享大核卷积和动态小核卷积模拟自注意力机制,实现轻量级图像超分辨率。ConvAttn创新性地结合静态大核卷积捕获长距离依赖,以及输入依赖的动态卷积实现自适应加权,在保持Transformer强大表征能力的同时显著降低计算开销。该模块可即插即用于各类视觉任务,测试显示在256×256输入下仅需32通道即可高效运行。

2025-09-26 17:58:46 903

原创 CVPR 2025 | 即插即用的空间-时间注意力,让SNN性能飙升,涨点起飞!

《SpikingTransformer引入块状时空注意力机制》:本文针对现有脉冲Transformer仅依赖空间注意力的局限性,提出了一种创新的STAtten(块状时空注意力)机制。该机制通过将时间序列分块处理,在保持原有计算复杂度(O(TND^2))的同时,实现了时空特征的联合建模。实验证明,STAtten模块可即插即用式地集成到多种脉冲Transformer架构中,在CIFAR、ImageNet等静态数据集和DVS等神经形态数据集上均显著提升性能。该方案在增强模型容量的同时,保持了脉冲神经网络的高能效特

2025-09-25 17:06:15 1190

原创 arXiv 2025 | 多尺度线性注意的混合CNN-Transformer医学分割网络,即插即用,涨点起飞!

MSLAU-Net是一种混合CNN-Transformer的医学图像分割网络。其主要创新包括:1)多尺度线性注意力(MSLA)模块,通过并行卷积分支捕获不同尺度特征,结合线性注意力降低计算复杂度;2)分层编码器设计,浅层使用CNN模块提取局部特征,深层采用MSLA模块建模全局依赖;3)轻量级自顶向下解码器,高效融合多级特征。该网络在保持计算效率的同时增强了多尺度特征提取能力,适用于CT、MRI等多种医学图像分割任务。MSLA模块可单独使用,作为传统注意力的高效替代方案。

2025-09-24 15:25:33 1220

原创 EIsevier 2025 | 基于Mamba与选择性空-通道注意力的少样本轴承故障诊断,即插即用,涨点起飞!

SC-MambaFew: 基于Mamba和选择性空间-通道注意力的轴承故障少样本诊断 摘要:本文提出了一种新型端到端少样本学习框架SC-MambaFew,用于轴承故障诊断。该框架创新性地结合了Mamba架构和双重注意力机制:1)通过GL-Mamba模块增强空间特征提取;2)采用GLCA模块融合全局与局部通道注意力;3)设计选择性通道模块动态整合最具判别力的信息;4)引入协方差度量学习替代传统距离度量,提升模型泛化能力。实验表明,该方法在数据稀缺情况下(如1-shot/5-shot)仍能保持高诊断准确率,为工

2025-09-23 17:38:54 766

原创 ICCV 2025 | 反卷积块-上采样平替:图像去噪、超分辨率、去模糊所有CV任务统统吊打传统上采样方法!

论文提出了一种新型逆卷积算子(Depthwise Reverse Convolution)及其应用。通过求解带正则化的最小二乘优化问题,获得了非迭代闭式解,作为深度可分离卷积的数学逆运算。该方法构建了模块化逆卷积块,将逆卷积与层归一化、1x1卷积和GELU激活结合,类似Transformer结构,实现了空间建模和通道信息解耦。创新性地支持多通道特征域去模糊,突破了传统方法仅能在图像域操作的限制。实验表明,该模块可有效应用于图像去噪、超分辨率和去模糊等任务,性能优于传统卷积和转置卷积方法。

2025-09-22 17:36:09 1213

原创 arXiv 2025 | 紧凑自注意力模块,即插即用,涨点起飞!

GridFormer: 恶劣天气图像恢复的统一Transformer框架 摘要:本文提出GridFormer,一个基于Transformer的恶劣天气图像恢复统一框架。其核心创新包括:1)网格化结构设计,通过三行七列的网格实现多尺度特征交互;2)残差密集Transformer块(RDTB),促进特征重用;3)紧凑增强型自注意力机制,在通道维度计算注意力,将复杂度从O(N²)降至O(C²)。该框架在去雨、去雾、去雪等五项任务上均达到SOTA性能,同时保持较低计算成本。实验证明其作为通用图像恢复骨干的潜力,可有

2025-09-19 18:09:58 796

原创 CVPR 2024 | 多尺度 PKI 模块,即插即用,涨点起飞!

本文提出了一种针对遥感图像目标检测的轻量级骨干网络PKINet,其核心创新包括:1)多尺度核Inception模块(PKIModule),通过并行深度可分离卷积提取不同感受野特征;2)上下文锚点注意力机制(CAAModule),利用条纹卷积高效捕获长距离依赖。该方法在DOTA等遥感数据集上取得SOTA性能,具有参数量少、对目标尺寸变化不敏感等优势。PKINet采用CSP架构,整合PKI和CAA模块,可有效处理遥感图像中目标尺度剧烈变化和上下文依赖强的检测难题,同时适用于通用目标检测任务。

2025-09-18 17:10:01 901

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除