- 博客(104)
- 收藏
- 关注
原创 【Trans2025】计算机视觉|即插即用|WSC:即插即用!WSC模块,高光谱图像分类新SOTA!
现有基于 Mamba 架构的高光谱图像分类 (HSIC) 模型主要集中于表征原始光谱和空间域,而对时频分析的探索有限。本研究提出了一种新的基于小波分解的光谱-空间 Mamba 网络,用于 HSIC,称为“WD-SSMamba该模型结合了一维和二维小波分解,分别提取频域中的光谱和空间特征。具体而言,本研究设计了一个创新的频率特征提取 (FE) 模块,该模块包含一个用于光谱特征提取的光谱小波卷积 (SWC) 模块和一个用于空间特征提取的小波可分离卷积 (WSC) 模块。
2025-09-14 10:08:05
951
原创 【CAM2025】计算机视觉|即插即用|VGGT:颠覆传统!秒级重建三维场景,VGGT即插即用,性能炸裂!
本研究提出了VGGT,一个前馈神经网络,可以直接从一个、几个或几百个场景视图中推断出场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。这种方法是3D计算机视觉领域的一大进步,该领域的模型通常被限制于并专门用于单个任务。它既简单又高效,能够在不到一秒钟的时间内重建图像,并且仍然优于需要使用视觉几何优化技术进行后处理的替代方案。该网络在多个3D任务中取得了最先进的结果,包括相机参数估计、多视图深度估计、密集点云重建和3D点跟踪。本研究还表明,
2025-09-11 09:23:24
601
原创 【CAM2025】计算机视觉|即插即用|MWAS:炸裂!MWAS模块,让小目标检测性能狂飙!
微小目标检测在无人机监控、遥感和自主系统中起着至关重要的作用,能够识别广阔场景中的小目标。然而,现有方法由于冗余的特征处理和僵化的查询分配导致特征利用效率低下和计算成本高。为了应对这些挑战,本研究提出了Dome-DETR,这是一个具有面向密度特征查询操作的新型框架,可用于高效的微小目标检测。为了减少特征冗余,本研究引入了轻量级密度焦点提取器 (DeFE)来生成聚类的紧凑前景掩码。利用这些掩码,本研究结合了掩码窗口注意力稀疏化 (MWAS),通过稀疏注意力将计算资源集中在信息最丰富的区域。此外,本研究提出了。
2025-09-08 08:50:25
877
原创 【ICCV2025】计算机视觉|即插即用|ESC:颠覆Transformer!超强平替,ESC模块性能炸裂!
本研究解决了Transformer在高效图像超分辨率(SR)任务中的高计算开销问题。基于对自注意力层间重复性的观察,本研究引入了一个名为卷积注意力(ConvAttn)的卷积化自注意力模块,它利用单个共享的大卷积核和动态卷积核来模拟自注意力的远程建模能力和实例依赖加权。通过利用ConvAttn模块,本研究显著减少了对自注意力及其相关内存密集型操作的依赖,同时保持了Transformer的表示能力。此外,本研究克服了将Flash Attention集成到轻量级SR领域的挑战,有效地。
2025-09-07 09:32:10
1238
原创 【ICCV2025】计算机视觉|即插即用|ESC:超越Transformer!即插即用ESC模块,显著提升图像超分辨率性能!
本研究解决了Transformer在高效图像超分辨率(SR)任务中的高计算开销问题。基于对自注意力层间重复性的观察,本研究引入了一个名为卷积注意力(ConvAttn)的卷积化自注意力模块,它利用单个共享的大核和动态核来模拟自注意力的远程建模能力和依赖于实例的加权。通过利用ConvAttn模块,本研究显著减少了对自注意力及其相关内存密集型操作的依赖,同时保持了Transformer的表征能力。此外,本研究克服了将Flash Attention集成到轻量级SR机制中的挑战,有效地。
2025-09-05 08:58:28
1246
原创 【CVPR2025】计算机视觉|即插即用|DSSA:即插即用!显著提升模型性能的双重稀疏注意力模块!
在本研究中,分娩过程中的传统方法包括侵入性阴道检查,但研究表明,这些方法既主观又不准确。超声辅助诊断提供了一种客观有效进展角度(AoP)和头-耻骨联合距离(HSD),这些参数是通过分割胎儿头部(FH)和耻骨联合(PS)计算得出的,有助于临床医生确保顺利分娩。因此,准确分割 FH 和 PS 至关重要。本研究提出了一种名为DSSAU-Net的稀疏自注意力网络架构,用于分割 FH 和 PS,该架构具有良好的性能和高计算效率。具体而言,本研究在每个阶段堆叠不同数量的双稀疏选择注意力(DSSA)
2025-09-04 09:07:01
1134
原创 【Trans2025】计算机视觉|即插即用|AFANet:炸裂!图像分割新SOTA,轻松碾压传统方法!
本研究旨在通过利用从少量样本中学习的先验知识来识别新概念。然而,对于视觉密集型任务(如少样本语义分割),像素级标注既耗时又昂贵。因此,在本文中,本研究利用更具挑战性的图像级标注,并提出了一种用于弱监督少样本语义分割 (WFSS)的自适应频率感知网络 (AFANet)。具体来说,本研究首先提出了一个跨粒度频率感知模块 (CFM),它将 RGB 图像解耦为高频和低频分布,并通过重新对齐它们来进一步优化语义结构信息。与大多数现有的 WFSS 方法以离线学习的方式使用来自多模态语言视觉模型(例如 CLIP)
2025-09-02 09:41:51
1423
原创 【CVPR2025】即插即用|DarkIR:夜晚拍照模糊不清?DarkIR模块,一键拯救你的废片!
夜间或黑暗条件下的摄影通常会由于昏暗的环境和长时间曝光的普遍使用而受到噪声、低光和模糊问题的影响。尽管在这些条件下,去模糊和低光图像增强(LLIE)是相关的,但图像恢复中的大多数方法都是单独解决这些任务的。本研究提出了一种高效且鲁棒的神经网络,用于多任务低光图像恢复。本研究没有遵循当前基于Transformer模型的趋势,而是提出了新的注意力机制来增强高效CNN的感受野。与以前的方法相比,本方法降低了参数和MAC操作方面的计算成本。本研究的模型DarkIR在流行的。
2025-08-31 09:00:00
837
原创 【CVPR2025】计算机视觉|SVasP:让跨域小样本学习精度飙升!
跨域少样本学习 (CD-FSL)旨在将知识从已知的源域迁移到未知的目标域,这对于评估模型的泛化性和鲁棒性至关重要。最近的研究侧重于利用视觉风格来弥合不同域之间的域差距。然而,在那些基于风格的 CD-FSL 方法中,存在梯度不稳定和局部优化问题的严重困境。本研究解决了这些问题,并提出了一种新的裁剪-全局风格扰动方法,称为自适应对抗风格扰动(SVasP),它可以增强梯度稳定性并同时摆脱较差的尖锐最小值。具体而言,SVasP 通过多样化输入模式和聚合局部裁剪风格梯度。
2025-08-28 09:15:55
760
原创 【CVPR2025】计算机视觉|无需校准!One Hour搞定噪声合成,低光RAW图像降噪新突破!
*本研究提出了一种新的基于假设的散粒噪声合成方法,该方法绕过了费力的系统增益校准过程。**本研究还对信号无关噪声合成进行了全面的分析,强调了参数噪声分析的固有局限性以及暗帧位深扩展的冗余性。结合上述内容,**本研究介绍了一种实用且简单的RAW图像噪声合成流程,该流程只需要收集暗帧,将准备工作从数天减少到数小时,同时提供令人印象深刻的去噪结果。**本研究进行了广泛的实验来验证所提出方法的有效性,并进行了全面的消融研究以进行深入理解。
2025-08-25 09:44:03
734
原创 【CVPR2025】PrunNet:兼容多平台任意容量部署!
非对称检索是现实世界检索系统中的典型场景,其中不同容量的兼容模型部署在具有不同资源配置的平台上。现有方法通常使用兼容学习来训练预定义的网络或子网络,其容量专门为预定平台设计。然而,这些方法在多平台部署方面缺乏灵活性。例如,当将新平台引入检索系统时,开发人员必须以适当的容量训练一个额外的模型,该模型通过向后兼容学习与现有模型兼容。本研究提出了一种具有自兼容性的可剪枝网络,它允许开发人员通过训练后剪枝生成任意所需容量的兼容子网络。因此,它允许创建与新平台资源匹配的稀疏子网络,而无需额外的训练。
2025-08-24 09:00:00
852
原创 【CVPR2025】计算机视觉|SeTa:让大模型训练省钱又提效!
随着数据集规模的快速增长,深度学习研究取得了显著进展。然而,随着数据集规模的增大,由于存在低价值样本(包括过多的冗余样本、过难样本以及对模型改进贡献很小的低效简单样本),训练过程变得越来越低效。为了应对这一挑战,本研究针对大型数据集提出了规模高效训练(SeTa),这是一种动态样本剪枝方法,可以无损地减少训练时间。为了去除低价值样本,SeTa首先执行随机剪枝以消除冗余样本,然后根据损失衡量的学习难度对剩余样本进行聚类。在此聚类的基础上,采用滑动窗口策略,按照从易到难的课程逐步去除过难和低效简单的聚类。
2025-08-20 09:38:39
645
原创 【CVPR2025】计算机视觉|PSP-UAP:无数据攻击新SOTA!
本研究提出了一个新的无数据通用对抗扰动(UAP)方法,该方法在训练过程中递归地直接从UAP中提取伪语义先验,以丰富无数据UAP框架内的语义内容。本研究的方法通过区域采样有效地利用了UAP中的潜在语义信息,实现了成功的输入变换(由于缺乏语义线索,这在传统的无数据UAP方法中通常无效),并显著增强了黑盒迁移性。此外,本研究引入了一种样本重加权技术,以减轻随机采样和变换带来的潜在不平衡,强调受UAP影响较小的困难样本。在本研究于ImageNet上进行的综合实验表明,本研究的方法在平均欺骗率方面取得了最先进的性能。
2025-08-19 09:00:00
566
原创 【arXiv2025】计算机视觉|FGA:即插即用!让你的模型精准预测人群密度!
本研究提出了傅里叶引导注意力(FGA),一种用于人群计数估计的新型注意力机制,旨在解决现有基于卷积的注意力网络中全尺度全局模式捕获效率低下的问题。FGA 通过利用快速傅里叶变换 (FFT)以及针对全局特征的空间注意力和针对半全局和局部特征的通道注意力卷积来有效地捕获多尺度信息,包括全尺度全局模式。FGA 的架构涉及双路径方法:(1)通过 FFT 处理全尺度全局特征的路径,从而有效提取频域信息;(2)使用传统卷积和通道注意力处理剩余特征图以获取半全局和局部特征的路径。这种双路径架构使 FGA 能够无缝集成。
2025-08-18 15:27:38
675
原创 【CVPR2025】计算机视觉|GIFNet:一个模型实现所有图像融合任务!还能增强画质?!
本研究主要关注数字摄影融合中的低级视觉任务,并利用像素级监督实现有效的特征交互。这种新范式为无监督多模态融合提供了强有力的指导,无需依赖抽象语义,增强了任务共享特征学习,从而扩展了适用性。由于混合图像特征和增强的通用表示,提出的GIFNet支持多种融合任务,使用单个模型即可在已见和未见场景中实现高性能。独特的是,实验结果表明,本研究的框架还支持单模态增强,为实际应用提供了卓越的灵活性。
2025-08-16 10:05:52
1390
原创 【Trans2025】计算机视觉|UMFormer:即插即用!让遥感图像分割更精准!
在本研究中,构建了一个名为UMFormer的编解码器风格网络,用于遥感图像的语义分割。具体来说,UMFormer采用ResNet18作为编码器,目的是执行初步的图像特征提取。随后,对自注意力机制进行优化,以便在多尺度条件下提取与不同大小对象相关的全局信息。为了融合编解码器特征图信息,构建了另一种注意力结构来重建空间信息并捕获相对位置关系。最后,设计了一个基于Mamba的解码器,以有效地对全局和局部信息进行建模。同时,设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在。
2025-08-15 09:00:00
1073
原创 【AAAI2025】计算机视觉|即插即用|FSTA:炸裂!这个即插即用模块,让你的SNN性能起飞!
脉冲神经网络 (SNN)由于其固有的能源效率,正在成为人工神经网络 (ANN) 的一个有前景的替代方案。由于 SNN 内部脉冲生成的固有稀疏性,对中间输出脉冲的深入分析和优化往往被忽略。这种疏忽极大地限制了 SNN 固有的能源效率,并削弱了其在时空特征提取方面的优势,导致精度不足和不必要的能源消耗。本研究从时间和空间角度分析了 SNN 固有的脉冲特征。在空间分析方面,本研究发现浅层倾向于关注学习垂直变化,而深层逐渐学习特征的水平变化。关于时间分析,本研究观察到不同时间步长的特征学习没有显著差异。这表明。
2025-08-14 09:00:00
1706
原创 【AAAI2025】计算机视觉|即插即用|TBSN:颠覆性盲点模块!Transformer加持,图像去噪性能炸裂!
本研究提出了一种基于的盲点网络(TBSN),用于自监督图像去噪。现有的大多数BSN都使用卷积层构建。尽管已经展现出克服卷积在许多图像复原任务中局限性的潜力,但注意力机制可能违反盲点要求,从而限制了它们在BSN中的适用性。为此,本研究重新设计通道注意力和空间注意力以满足盲点要求。具体来说,由于下采样将空间特征混洗到通道维度中,通道自注意力可能会在多尺度架构中泄漏盲点信息。为了缓解这个问题,本研究将通道分成几组并分别执行通道注意力。对于空间自注意力。
2025-08-13 09:01:00
533
原创 【CVPR2025】计算机视觉|ARD:DiT加速神器!3步出图!
具有Transformer架构的扩散模型在生成高保真图像和高分辨率可扩展性方面展现出强大的能力。然而,图像合成所需的迭代采样过程非常消耗资源。一系列研究工作致力于将概率流常微分方程(ODE)的解提取到少步学生模型中。尽管如此,现有方法受限于其对最新去噪样本作为输入的依赖,使其容易受到曝光偏差的影响。为了解决这一限制,本研究提出了自回归提取(ARD),这是一种利用ODE的历史轨迹来预测未来步骤的新方法。ARD有两个主要优势:1) 它通过利用不易受累积误差影响的历史轨迹预测来减轻曝光偏差;2) 它。
2025-08-12 09:00:00
912
原创 【CVPR2025】计算机视觉|三视图焦距恢复:HF方法,高效又精准!
本研究提出了一种从三视图单应性恢复焦距的新方法。通过检查两个单应性之间法向量的 一致性,本研究使用消元技术推导出了焦距和单应性之间新的显式约束。本研究证明了三视图单应性提供了两个额外的约束,从而能够恢复一个或两个焦距。本研究讨论了四种可能的情况,包括三个相机具有相等的未知焦距、三个相机具有两个不同的未知焦距、三个相机中一个焦距已知而另外两个相机具有相等或不同的未知焦距。所有问题都可以转化为求解一个或两个未知数的多项式,可以使用 Sturm 序列或隐变量技术有效地解决。
2025-08-11 09:00:00
850
原创 【CVPR2025】计算机视觉|MoEdit: 多目标图像编辑新SOTA
多目标图像在包括增强现实、广告设计和医学成像在内的各种现实场景中都很普遍。高效、精确地编辑这些图像对于这些应用至关重要。随着的出现,高质量的图像生成和编辑进入了一个新时代。然而,现有方法通常难以将每个对象既作为单独个体又作为整个图像编辑的一部分来考虑,而这两者对于确保一致的数量感知至关重要,从而导致感知性能欠佳。为了应对这些挑战,本研究提出了MoEdit,一个无需辅助的多目标图像编辑框架。MoEdit促进了高质量的多目标图像编辑,包括风格迁移、对象重塑和背景再生。
2025-08-10 09:00:00
1398
原创 【CVPR2025】计算机视觉|PX:让模型训练“事半功倍”!
本研究展示了如何在训练前降低深度学习模型的计算成本和内存需求。本研究专注于初始化时的剪枝框架,并提出了一种新的算法,利用神经正切核 (NTK) 理论来使稀疏网络的训练动态与密集网络的训练动态对齐。具体而言,本研究展示了如何通过提供NTK 迹的解析上界来考虑 NTK 谱中通常被忽略的数据相关成分,该上界是通过将神经网络分解为单独的路径获得的。这引出了本研究提出的路径排除 (PX) 方法,这是一种前瞻性剪枝方法,旨在保留对 NTK 迹影响最大的参数。PX 即使在高稀疏度下也能够找到彩票 (即好的路径)
2025-08-09 09:00:00
1058
原创 【CVPR2025】计算机视觉|AffScore:DNN非线性终极解密!
在过去十年中,见证了若干新型深度神经网络 (DNN)架构的引入,这些架构在各种任务中展现出不断提升的性能。然而,解释其性能的上升趋势仍然很困难,因为即使在同一数据集上训练,具有可比深度和宽度的不同 DNN 架构(与其表达能力相关的常见因素)也可能表现出截然不同的性能。本研究引入了DNN 非线性签名的概念,这是第一个理论上合理的解决方案,用于近似测量深度神经网络的非线性。该签名建立在从闭式最优传输映射得出的分数之上,可以更好地理解各种 DNN 架构和学习范式的内部工作原理,尤其侧重于计算机视觉任务。
2025-08-08 09:00:00
1163
原创 【CVPR2025】计算机视觉|即插即用|ISTD:告别图像编辑“翻车现场”,这个即插即用模块太强了!
近年来,扩散模型在文本到图像(T2I)生成方面取得了显著进展,能够合成具有高保真度和多样化内容的图像。尽管取得了这一进步,但扩散模型内潜在空间的平滑性在很大程度上仍未得到探索。平滑的潜在空间确保对输入潜变量的扰动对应于输出图像的稳定变化。这一特性在下游任务中被证明是有益的,包括图像插值、反演和编辑。本研究揭示了扩散潜在空间的非平滑性,观察到由微小的潜在变量变化引起的明显的视觉波动。为了解决这个问题,本研究提出了平滑扩散模型,这是一类新的扩散模型,可以同时实现高性能和平滑性。具体来说,本研究引入了。
2025-08-07 09:00:00
811
原创 【Trans2025】计算机视觉|即插即用|CCVIM:CCViM强势来袭!上下文聚类ViM,医学图像分割新SOTA!
医学图像分割需要全局和局部特征表示的聚合,这对当前处理长距离和短距离特征交互的方法提出了挑战。近来,视觉mamba(ViM)模型已成为一种有前景的解决方案,它通过以线性复杂度擅长长距离特征迭代来解决模型复杂性问题。然而,现有的ViM方法通过直接展平空间标记忽略了保留短程局部依赖关系的重要性,并且受到固定扫描模式的限制,这限制了动态空间上下文信息的捕获。为了应对这些挑战,本研究引入了一种简单而有效的方法,称为上下文聚类ViM(CCViM),它在现有的ViM模型中一个上下文聚类模块。
2025-08-06 09:00:00
967
原创 【arXiv2025】计算机视觉|即插即用|LWGA:即插即用!LWGA模块,视觉性能炸裂!
遥感(RS)视觉任务在学术和实践中具有重要意义。然而,它们面临着许多阻碍有效特征提取的挑战,包括检测和识别单个图像中尺度变化很大的多个目标。虽然之前的双分支或多分支架构策略可以有效地管理这些目标差异,但它们同时导致计算需求和参数数量的大幅增加。因此,这些架构在资源受限的设备上的部署可行性较低。当代主要为自然图像设计的轻量级骨干网络经常难以有效地从多尺度目标中提取特征,这会影响其在RS视觉任务中的效率。本研究介绍了LWGANet,这是一种专门为RS视觉任务定制的轻量级骨干网络,它包含一个新颖的。
2025-08-05 09:10:37
1302
原创 【CVPR2025】计算机视觉|AnomalyNCD:让工业异常分类“脱胎换骨”!
近年来,多类别异常分类越来越受到关注。以前的方法直接对异常进行聚类,但由于缺乏异常先验知识,往往难以奏效。非显著异常和弱语义异常。本研究提出了一种名为AnomalyNCD的多类别异常分类网络,它与不同的异常检测方法兼容。为了解决异常的非显著性问题,本研究设计了主要元素二值化(MEBin)方法来获取以异常为中心的图像,确保在学习异常的同时避免错误检测的影响。接下来,为了学习弱语义的异常,本研究设计了掩码引导的表征学习方法,该方法侧重于由掩码引导的孤立异常,并通过校正后的伪标签减少来自错误输入的混淆。
2025-08-04 08:52:28
848
原创 【AAAI2025】计算机视觉|即插即用|ASID:参数量暴减90%,性能依然炸裂?!ASID模块,轻量级Transformer超分新王者!
基于的超分辨率(SR)方法由于能够捕获长距离依赖性,已经展现出优于基于卷积神经网络(CNN)的SR方法的性能。然而,其高计算复杂性需要开发轻量级方法以供实际使用。为了应对这一挑战,本研究提出了注意力共享信息蒸馏(ASID)网络,这是一个轻量级的SR网络,它集成了注意力共享和专为基于Transformer的SR方法设计的信息蒸馏结构。本研究修改了最初为高效CNN操作设计的信息蒸馏方案,以减少堆叠自注意力层的计算负载,有效地解决了效率瓶颈。此外,本研究引入了跨块的注意力共享。
2025-08-03 09:00:00
750
原创 【CVPR2025】计算机视觉|即插即用|GCNet:炸裂!实时语义分割新星GCNet,性能速度双突破!
最近的实时语义分割模型,无论是单分支还是多分支,都实现了良好的性能和速度。然而,它们的速度受到多路径块的限制,并且一些模型依赖于高性能的教师模型进行训练。为了克服这些问题,本研究提出了金箍棒网络(GCNet)。具体来说,GCNet在训练过程中使用垂直多卷积和水平多路径,在推理过程中将其重新参数化为单个卷积,从而优化性能和速度。这种设计使GCNet能够在训练过程中自我扩大,在推理过程中自我收缩,有效地成为一个“教师模型”,而无需外部模型。实验结果表明,在。
2025-08-02 09:00:00
1879
原创 【CVPR2025】计算机视觉|即插即用|DiC:炸裂!纯卷积DiC吊打Transformer,推理速度狂飙!
扩散模型在视觉生成任务中展现出卓越的性能。最近,这些模型已经从传统的U型CNN-注意力混合结构转向完全基于Transformer的各向同性架构。虽然这些Transformer表现出强大的可扩展性和性能,但它们对复杂自注意力操作的依赖导致推理速度缓慢。与这些工作相反,本研究重新思考了深度学习中最简单但最快的模块之一——3x3卷积,以构建一个可扩展的纯卷积扩散模型。本研究首先发现编码器-解码器沙漏设计在Conv3x3的性能上优于可扩展的各向同性架构,但仍低于预期。为了进一步改进架构,本研究引入了稀疏跳跃连接。
2025-08-01 09:00:00
680
原创 【CVPR2025】计算机视觉|DAC:炸裂!图像匹配新SOTA
本研究提出了一种通过整合密集匹配和几何约束来提取精确仿射对应的新流程。具体来说,借助密集匹配和一种新颖的关键点尺度和方向估计器,本研究引入了一个新的提取框架。为此,本研究提出了基于几何约束的损失函数,它可以通过监督神经网络学习特征几何来有效地提高精度。实验表明,本研究方法的精度和鲁棒性在图像匹配任务中优于现有方法。为了进一步证明所提出方法的有效性,本研究将其应用于相对姿态估计。在本研究方法提取的仿射对应关系比一系列真实世界数据集上的基线方法得到了更准确的姿态。
2025-07-31 09:00:00
806
原创 【CVPR2024】计算机视觉|DoesFS:快速实现人脸夸张变形!
本研究解决了单样本人脸风格化中的复杂问题,重点关注外观和结构的同时考虑,而先前的方法在这方面有所不足。本研究探索了变形感知的人脸风格化,它不同于传统的单图像风格参考,而是选择使用真实的风格图像对。本方法的基石是利用自监督视觉Transformer,特别是 DINO-ViT,在真实和风格域之间建立稳健且一致的面部结构表示。本研究的风格化过程首先通过集成空间变换器 (STN)使 StyleGAN 生成器变形感知。然后,本研究在 DINO 语义的指导下引入了两个创新的生成器微调约束:i)
2025-07-29 09:00:00
965
原创 【CVPR2025】计算机视觉|TrainProVe:你的模型用了我的数据?!
高质量的开源文生图模型大大降低了获取逼真图像的门槛,但也面临着潜在的滥用风险。具体来说,当缺乏真实数据资源时,嫌疑人可能会在未经许可的情况下使用这些生成模型生成的合成数据来训练特定任务的模型。保护这些生成模型对其所有者的福祉至关重要。本研究提出了第一个解决这一重要但尚未解决的问题的方法,称为训练数据来源验证(TrainProVe)。TrainProVe 的基本原理基于泛化误差界的原理,该原理表明,对于具有相同任务的两个模型,如果它们的训练数据分布之间的距离越小,它们的泛化能力就越接近。
2025-07-28 09:00:00
550
原创 【CVPR2025】计算机视觉|ORTrack:让无人机跟踪无惧遮挡!
本研究针对使用视觉Transformer(ViT)骨干网络的单流架构在实时无人机(UAV)跟踪中表现出的巨大潜力,但同时也存在因建筑物和树木等障碍物造成的频繁遮挡而暴露出的主要缺点:这些模型通常缺乏有效处理遮挡的策略。需要新的方法来增强单流ViT模型在空中跟踪中的遮挡鲁棒性。本研究提出基于ViT学习用于UAV跟踪的遮挡鲁棒表示(ORR),方法是强制目标的特征表示相对于由空间Cox过程建模的随机掩蔽操作保持不变。
2025-07-27 09:00:00
1720
原创 【CVPR2025】计算机视觉|DefMamba:炸裂性能!可变形视觉状态空间模型新SOTA
最近,状态空间模型(SSM),特别是Mamba,因其能够有效平衡计算效率和性能而受到了学者们的广泛关注。然而,大多数现有的视觉Mamba方法使用预定义的扫描顺序将图像展平为一维序列,这导致模型在特征提取过程中难以利用图像的空间结构信息。为了解决这个问题,本研究提出了一种名为DefMamba的新型视觉基础模型。该模型包括一个多尺度骨干结构和可变形Mamba(DM)块,它可以动态调整扫描路径以优先考虑重要信息,从而增强对相关输入特征的捕获和处理。通过结合可变形扫描(DS)策略,该模型显著提高了其。
2025-07-26 09:00:00
715
原创 【CVPR2025】计算机视觉|MobileMamba:比CNN/ViT快21倍的多尺度Mamba网络!
以往的轻量级模型研究主要集中在 CNN 和基于 Transformer 的设计上。CNN 由于其局部感受野,难以捕捉长距离依赖关系,而 Transformer 尽管具有全局建模能力,但在高分辨率场景下却受到二次计算复杂度的限制。最近,状态空间模型因其线性计算复杂度而在视觉领域获得了普及。尽管 FLOPs 低,但当前基于 Mamba 的轻量级模型的吞吐量却不是最优的。本研究提出了框架,它在效率和性能之间取得了平衡。本研究设计了一个三阶段网络来显著提高推理速度。在细粒度级别上,本研究引入了。
2025-07-25 09:00:00
1443
原创 【CVPR2025】MaIR:让图像复原“脱胎换骨”!
最近Mamba模型在图像复原领域展现出极具潜力的结果。这些方法通常将二维图像沿着行和列展开成多个不同的序列,使用选择性扫描操作独立地处理每个一维序列,然后将它们重新组合以形成输出。然而,这种范式忽略了两个重要方面:i)自然图像中固有的局部关系和空间连续性,以及 ii)以完全不同的方式展开的序列之间的差异。为了克服这些缺点,本研究探讨了基于Mamba的复原方法中的两个问题:i)如何设计一种扫描策略,在便于复原的同时保持局部性和连续性,以及 ii)如何聚合以完全不同方式展开的不同序列。
2025-07-24 09:00:00
972
原创 【CVPR2025】计算机视觉|SegMAN:全局&局部特征融合新SOTA!
全局上下文建模局部细节编码和多尺度特征提取。然而,最近的方法难以同时具备所有这些能力。因此,本研究旨在使分割网络能够同时对不同的输入分辨率执行高效的全局上下文建模、高质量的局部细节编码和丰富的多尺度特征表示。本研究介绍了SegMAN,一个新颖的线性时间模型,它包含一个称为SegMAN编码器的混合特征编码器和一个基于状态空间模型的解码器。具体来说,SegMAN编码器将滑动局部注意力与动态状态空间模型协同集成,从而在保留细粒度局部细节的同时实现高效的全局上下文建模。同时,解码器中的MMSCopE模块。
2025-07-23 09:00:00
2090
原创 【CVPR2025】计算机视觉|SPMTrack:视觉跟踪新SOTA,参数高效,性能炸裂!
大多数先进的跟踪器采用单流范式,使用单个视觉Transformer进行模板和搜索区域图像的联合特征提取和关系建模。然而,不同图像块之间的关系建模表现出显著的变化。例如,以目标无关信息为主的背景区域需要减少注意力分配,而前景,尤其是边界区域,需要被强调。单一模型可能无法有效地同时处理所有类型的关系建模。本研究提出了一种名为SPMTrack的新型跟踪器,它基于为视觉跟踪任务量身定制的专家混合模型(TMoE),结合了多个专家的能力来更灵活地处理不同的关系建模。受益于TMoE,本研究将。
2025-07-22 09:00:00
636
原创 【CVPR2025】计算机视觉|SGLATrack:让ViT速度起飞!
本研究发现轻量级ViT跟踪器中的许多层倾向于学习相对冗余和重复的目标表示。基于此观察,本研究提出了一种相似性引导的层自适应方法来优化ViT的结构。本研究的方法动态地禁用大量表示相似的层,并在其中选择性地保留单个最佳层,旨在实现更好的精度-速度权衡。通过将此方法结合到现有的ViT中,本研究将以前完整的ViT架构定制成一个高效的相似性引导的层自适应框架,名为SGLATrack,用于实时无人机跟踪。在六个跟踪基准上的大量实验验证了所提出方法的有效性,并表明本研究的SGLATrack在保持竞争性跟踪精度。
2025-07-21 09:00:00
948
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅