- 博客(34)
- 收藏
- 关注
原创 CVPR 2025 论文主题分析与趋势报告
CVPR 2025 论文主题概览及分类统计CVPR 2025 共接收论文,在提交的13008篇论文中录取率约为这一录取数量再次刷新大会纪录,反映出计算机视觉领域的研究热度持续高涨。为了更好地了解CVPR 2025论文的研究方向,我们对所有录用论文的主题进行了提取和分类,总结主要研究主题并统计每类论文数量。(根据论文标题和内容提取)包括:图像和视频的合成与生成、三维视觉、人体行为与姿态理解、视觉与语言(多模态)、低级视觉处理(如去噪/超分辨)、目标检测与分割、自主驾驶与机器人、对抗攻防、安全公平性等方向。
2025-03-05 07:07:11
1503
原创 ECG-QA: A Comprehensive Question AnsweringDataset Combined With Electrocardiogram
ECG-QA数据集设计了70个问题模板,涵盖单ECG验证、单ECG选择、单ECG查询、连续ECG比较验证、连续ECG比较查询、无关ECG比较验证和无关ECG比较查询七种类型。尽管存在一些局限性,如ECG数量较少和数据集上限,ECG-QA数据集有望显著推动ECG问答研究的发展,并改进ECG数据分析的临床实践。问题模板分为单ECG验证、单ECG选择、单ECG查询、连续ECG比较验证、连续ECG比较查询、无关ECG比较验证和无关ECG比较查询七种类型。数据集被分割为训练集、验证集和测试集,比例为8:2:2。
2025-01-27 12:46:54
1023
原创 TPAMI 2024-DiffAttack:Diffusion Models for Imperceptible and TransferableAdversarial Attack
本文提出的DiffAttack方法通过利用扩散模型的生成和判别能力,成功生成了既不可感知又具有高度转移性的对抗性样本。广泛的实验结果表明,DiffAttack在各类模型、防御方法和数据集上均表现出色,显著优于现有的对抗性攻击方法。本文的研究为对抗性攻击领域提供了新的思路和工具,并为未来的研究方向指明了方向。
2024-11-17 10:21:37
1159
原创 基于图像分类的对抗攻击算法研究
图像分类是计算机视觉的基础任务,旨在。随着深度学习发展,模型在大规模数据集上的表现已超越人类。然而,这一进步也引发了新的安全挑战——。对抗攻击通过向原始图像添加精心设计的微小扰动,使模型产生错误分类,严重威胁系统可用性和安全性。这种攻击可分为两类:攻击类型特点白盒攻击利用模型内部信息黑盒攻击仅依赖模型输入输出理解这些基本概念有助于我们更好地认识对抗攻击的本质及其对图像分类模型的潜在影响。对抗攻击对图像分类模型的安全性构成重大威胁,已成为深度学习研究的重要方向。
2024-11-16 20:39:45
1728
原创 TIFS-2024 FIRe2:细粒度表示和重组在换衣行人重识别中的应用
本文提出了一种新的细粒度表示与重构(FIRe2)框架,用于解决布变人重识别问题。通过细粒度特征挖掘和属性重构,FIRe2在不依赖任何辅助信息的情况下,实现了最先进的性能。该方法在多个基准数据集上取得了显著的成果,展示了其在现实世界应用中的潜力。
2024-10-29 22:25:00
376
原创 一种减少特征相关性的正则化技术,以提高CC-ReID的性能
这篇文章要解决的问题是服装变化人物再识别(CC-ReID),即在不同的摄像头视角或时间段内匹配同一个人的图像,同时考虑到姿势、光照和服装变化等因素引起的外观变化。:该问题的研究难点包括:传统方法依赖于多模态数据或手动标注的服装标签,这不仅增加了模型的复杂性,还需要大量的人工努力;深度神经网络(DNN)倾向于利用训练分布中的细微统计相关性进行预测,导致在服装变化环境下出现“捷径”现象,即模型忽略了其他特征而仅依赖服装特征,从而降低了泛化能力。
2024-10-14 11:42:54
1052
原创 NeurIPS2024 SMART:可扩展的多智能体实时运动生成
本文提出的SMART模型通过自回归生成模型,利用向量化的地图和代理轨迹数据,解决了自动驾驶运动生成中的可扩展性和零样本泛化问题。与其他方法相比,SMART模型的优势在于其强大的交互和地图理解能力,能够在复杂场景中生成更安全和合理的驾驶行为。这些任务通过自回归的方式进行训练,使模型能够在每一步预测下一个令牌,从而有效地捕捉交通场景中的时间和空间关系,提高生成任务的多样性和合理性。这些离散化方法通过提供细粒度的输入特征,增强了模型对交通场景的理解能力,特别是在处理复杂场景中的代理运动和地图交互时表现出色。
2024-10-14 09:31:29
945
原创 【CVPR2024】Scaling Up Video Summarization Pretraining with Large Language Models
这篇论文提出了一种利用长视频和LLMs生成大规模视频摘要数据集的自动化和可扩展机制,并提出了一个新的自回归视频摘要模型,有效解决了现有方法的局限性。此外,论文还引入了一个新的基准数据集LfVS-T,包含1200个长视频及其高质量的人工注释摘要。广泛的比较表明,该工作在多个基准测试中建立了新的最先进水平。
2024-09-11 21:18:20
387
原创 CVC-ClinicDB(Colorectal Cancer-Clinic Dataset)数据集介绍
CVC-ClinicDB(Colorectal Cancer-Clinic Dataset)数据集介绍
2024-06-07 07:15:55
2427
1
原创 【遥感图像】多光谱与全色图像相关知识总结
多光谱图像(MS)和全色图像(PAN)是遥感技术中常用的两种图像类型,它们各自具有独特的特点和应用优势。
2024-05-07 11:48:36
1409
2
原创 【CVPR2024】文本到图像的行人再识别中的噪声对应学习
论文主要研究了文本到图像的行人再识别(Text-to-Image Person Re-identification, TIReID)问题,这是一个在跨模态领域中具有挑战性的话题,目标是基于文本查询检索目标人物的图像。
2024-04-22 14:42:55
1107
原创 【CVPR2023】Re:InterHand:一个用于3D交互手部姿态估计的重光照数据集
双手交互是分析中最具挑战性的信号之一,因为手的自相似性、复杂的关节和遮挡。尽管已经提出了几个双手交互分析的数据集,但它们都没有同时实现1) 多样化和逼真的图像外观,以及2) 多样化和大规模的地面真实(GT) 3D姿态。在这项工作中,我们提出了Re:InterHand,一个重光照的3D交互手数据集,实现了这两个目标。为此,我们使用了最先进的手部重光照网络和我们准确追踪的双手3D姿态。我们比较了我们的Re:InterHand与现有的3D交互手数据集,并展示了它的好处。
2024-04-20 12:42:56
2116
原创 [ICCV2023]RenderIH:用于3D交互手部姿态估计的大规模合成数据集
现有的交互手(IH)数据集在背景和纹理方面相对简单,手部关节由机器注释器标注,可能导致不准确,且姿态分布的多样性有限。然而,背景、姿态分布和纹理的可变性可以极大地影响泛化能力。因此,我们提出了一个大规模的合成数据集——RenderIH——用于具有准确和多样化姿态注释的交互手。数据集包含1M张具有不同背景、视角和手部纹理的照片真实感图像。为了生成自然和多样化的交互姿态,我们提出了一种新的姿态优化算法。
2024-04-20 12:35:59
909
原创 [ICCV2023]DIR-用于从单个RGB图像重建交互手部的解耦迭代细化框架
从单个RGB图像中重建交互的双手是一个非常具有挑战性的任务。一方面,双手之间的严重遮挡和相似的局部外观会混淆视觉特征的提取,导致估计的手部网格与图像错位。另一方面,交互的双手之间存在复杂的空间关系,这显著增加了手部姿态的解空间,增加了网络学习的难度。在本文中,我们提出了一个解耦的迭代细化框架,以实现像素级对齐的手部重建,同时有效建模双手之间的空间关系。具体来说,我们定义了两个具有不同特征的特征空间,即2D视觉特征空间和3D关节特征空间。
2024-04-20 12:28:43
917
原创 [ICCVW2023]EANet-提取与适应网络:用于3D交互手部网格恢复的网络
理解双手如何相互作用是准确恢复3D交互手部网格的关键组成部分。然而,最近的基于Transformer的方法在学习双手之间的交互时存在困难,因为它们直接使用双手特征作为输入令牌,这导致了远距离令牌问题。远距离令牌问题表示输入令牌处于异构空间,导致Transformer无法捕获输入令牌之间的相关性。本文提出了EABlock(提取和适应块),这是我们网络的主要组件,它使用两种新型令牌,SimToken和JoinToken,而不是直接使用双手特征作为输入令牌。
2024-04-20 12:18:10
989
原创 【CVPR2023】《A2J-Transformer:用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络
3D交互手部姿态估计(IHPE)是一个挑战性的任务,因为手部存在严重的自遮挡和相互遮挡,两只手的外观模式相似,以及从2D到3D的病态关节位置映射等问题。为了解决这些问题,作者提出了A2J-Transformer,这是一种基于Transformer的非局部编码-解码框架,用于改进A2J(一种最先进的基于深度的单手3D姿态估计方法),以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括:局部锚点通过自注意力机制建立全局空间上下文感知,以更好地捕获关节的全局线索;
2024-04-20 11:10:24
1010
原创 【CVPR2023】ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand Reconstruction
论文提出了一种名为ACR(Attention Collaboration-based Regressor)的新方法,用于从单目RGB图像中重建任意场景下的双手。ACR在CVPR 2023上的表现显著优于最佳的交互手方法,这表明其在处理单图像双手法重建方面具有显著的优势。
2024-04-16 17:59:12
1099
原创 Pan-Mamba: Effective pan-sharpening with State Space Model
论文主要研究的是遥感图像的pansharpening技术,这是一种将低分辨率的多光谱图像与高分辨率的全色图像结合起来生成高分辨率多光谱图像的技术。尽管现有的深度学习方法在图像融合方面取得了进展,但仍存在一些挑战,特别是在捕捉全局信息和有效融合信息方面。
2024-04-13 12:05:53
707
原创 [Mamba]FusionMamba:基于状态空间模型的高效图像融合
定量和定性评估结果表明,FusionMamba方法达到了最先进的性能。:提出了一个包含空间U-Net和光谱U-Net的网络结构,分别从PAN/RGB图像中提取空间特征,从LRMS/LRHS图像中捕获光谱特征,这种结构允许独立和层次化的学习。:扩展了Mamba模块以支持双输入,创建了一个新的模块,称为FusionMamba模块,它比现有的融合技术(如连接和交叉注意力)更有效。:提出了一种新颖的图像融合方法,名为FusionMamba,它通过结合Mamba模块到两个U形网络中,实现了空间和光谱特征的有效提取。
2024-04-13 12:00:00
2901
原创 【Mamba】DGMamba:第一个基于状态空间模型的领域泛化框架
实验结果表明,DGMamba在多个DG基准数据集上都取得了显著的性能提升,证明了其在解决分布偏移问题上的有效性和优越性。未来的工作可能会探索如何利用特征提示或领域提示来进一步指导基于SSM的模型学习更强大的表示,以及在高结构任务中深入研究Mamba架构以解决分布偏移问题。:提出了一个新的DG框架,名为DGMamba,它在保持全局接收场和高效线性复杂性的同时,具有很强的泛化能力,能够适应未见过的领域。:在四个常用的DG基准数据集上进行了广泛的实验,证明了DGMamba在性能上超越了现有的最先进模型。
2024-04-13 11:49:24
444
原创 [CVPR 2024] CANConv: 遥感Pansharpening的内容自适应非局部卷积
本文介绍了一种新的遥感图像融合技术,称为内容自适应非局部卷积(CANConv),专门用于提高遥感图像pansharpening的效果。CANConv通过自适应卷积确保空间适应性,并结合非局部自相似性信息,提高了融合图像的质量。此外,作者还提出了CANNet网络架构,该架构主要利用多尺度自相似性信息。通过广泛的实验,CANConv显示出比现有融合方法更优越的性能,并且其有效性通过可视化、消融实验以及与多个测试集上现有方法的比较得到了证实。
2024-04-13 11:41:04
694
2
原创 【ISBI2024】Language Grounded Single Source Domain Generalization in Medical Image Segmentation
本文提出了一种显式利用文本信息的方法,通过结合对比学习机制和文本编码器特征来学习更加鲁棒的特征表示。该方法通过文本引导的对比特征对齐技术,在跨模态、跨序列和跨站点等多种场景中评估了其有效性,并与现有文献中的方法进行了性能比较。本文通过结合文本信息和视觉特征,有效地解决了医学图像分割中的单源领域泛化问题,提高了分割的鲁棒性。文本引导的对比特征对齐方法在包括跨模态、跨序列和跨站点设置在内的具有挑战性的临床场景中表现出显著的改进。
2024-04-07 10:04:41
422
1
原创 InsectMamba:基于状态空间模型的害虫分类
这篇文章主要介绍了一种名为“InsectMamba”的新方法,用于*利用状态空间模型(SSMs)、卷积神经网络(CNNs)、多头自注意力机制(MSA)和多层感知机(MLPs)*进行昆虫害虫分类。该方法旨在提取更全面的视觉特征,并通过一个选择模块来动态地整合这些特征,从而提高模型区分害虫特性的能力。实验结果显示,“InsectMamba”在五个害虫分类数据集上优于其他强竞争对手,证明了其有效性和各个组件的重要性。
2024-04-07 09:39:53
458
原创 【2024综述】域泛化-Domain Generalization for Medical Image Analysis
在医学图像分析领域,域泛化(Domain Generalization, DG)是一个重要的研究方向,旨在提高模型在未见过的域上的泛化能力。这一挑战源于不同医院、扫描仪厂商、成像协议和患者群体等导致的数据分布差异[3]。近年来,随着深度学习技术的发展,尽管在医学图像分割等领域取得了专家级的准确率,但这些模型在临床现实环境中应用时往往会出现泛化能力下降和准确性降低的问题[3]。为了解决这一问题,研究者提出了多种方法。
2024-04-05 10:43:41
4623
1
原创 【2024】VLM-CPL:无注释的病理图像分类!来自视觉语言模型的共识伪标签
通过利用预训练的视觉语言模型,以无人工注释的方式进行病理图像分类,通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。
2024-03-27 08:04:50
911
1
原创 【2024】QKFormer: Hierarchical Spiking Transformer using Q-K Attention
SNN在ImageNet上首次达到 85.65% 准确率!本文提出一种专为脉冲神经网络(SNN)定制的脉冲形式 Q-K 注意力机制,并提出QKFormer:一种全新的脉冲Transformer,目前最强SNN!这是第一次在 ImageNet-1K 上直接训练 SNN 的准确率超过 85%,
2024-03-27 07:55:06
1294
1
原创 Denoising Vision Transformers
我们深入探讨了视觉 transformer(ViT)内在的微妙但重要的挑战:这些模型的特征图显示出网格状伪影,这对 ViT 在下游任务中的性能产生了负面影响。我们的调查将这个问题追溯到输入阶段的位置编码。为解决这个问题,我们提出了一种新颖的噪声模型,该模型普遍适用于所有 ViT。具体来说,噪声模型将 ViT 输出分解为三个组成部分:一个不受噪声伪影影响的语义项和两个依赖于像素位置的伪影相关项。通过在每张图像的基础上强制跨视图特征一致性来实现这种分解,利用神经场。
2024-03-22 15:49:29
904
1
原创 Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification
本文提出了一种新颖的频域细微差异挖掘方法,用于可见-红外人员再识别任务。通过在频域中探索交叉模态的频域信息,该方法有效地减小了可见光和红外图像之间的模态差异,并在多个数据集上取得了显著的性能提升。
2024-03-19 21:09:10
1250
原创 【CVPR2024】 EDITOR Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification
单模态对象重新识别(ReID)在复杂视觉场景中保持鲁棒性面临巨大挑战。相比之下,多模态对象ReID利用了来自不同模态的互补信息,显示出在实际应用中巨大的潜力。然而,以前的方法可能容易受到无关背景的影响,并且通常忽略模态间的差距。为了解决上述问题,我们提出了一种新颖的学习框架EDITOR,用于从视觉Transformer中为多模态对象ReID选择多样的标记。我们首先使用共享视觉Transformer从不同的输入模态中提取标记化特征。
2024-03-18 13:54:21
1265
原创 【CVPR2024 】Mamba 再夺一城:DiffuSSM来了!没有注意力的扩散模型
本研究提出了一种无需注意力机制的扩散模型,通过引入Diffusion State Space Model (DIFFUSSM)架构,有效处理高分辨率图像生成问题,同时显著减少总FLOP使用量。
2024-03-18 10:06:26
3205
原创 [CVPR2024] D3T: 跨越RGB-热成像领域差距的独特双域教师用于领域自适应目标检测
目标检测的领域适应通常涉及将知识从一个可见域迁移到另一个可见域。然而,从**可见域适应到热成像域的研究很少,因为可见域和热成像域之间的域差距远大于预期**,传统的领域适应方法无法成功促进这种情形下的学习。为了克服这个挑战,我们**提出了一种独特的双域教师(D3T)框架,为每个域采用不同的训练范式**。具体来说,我们***分别隔离源训练集和目标训练集来构建双教师,并依次将指数移动平均部署到学生模型上,以实现每个域的个别教师***。该框架进一步*融入了双教师之间的曲折学习方法,促使在训练过程中可见域向热成像域的
2024-03-17 12:03:19
1307
1
原创 [CVPR2024]DCNv4 Efficient Deformable ConvNets
Deformable Convolution v4 (DCNv4) 是一个高效和有效的算子,旨在广泛应用于视觉领域。它通过两种关键改进方案来解决其前作 DCNv3 的限制,即在空间聚合中删除 softmax 标准化以增强其动态特性和表达能力,并优化内存访问以提高速度。DCNv4 在各种任务中展现了卓越的性能,包括图像分类、实例和语义分割,尤其是图像生成。在将其集成到生成模型(如潜在扩散模型中的 U-Net)时,DCNv4 的性能超越基准模型,彰显了其增强生成模型的潜力。
2024-03-16 23:56:05
1677
1
原创 【ICCV 2023 】SSL-DG: 基于深度学习的医学图像分割技术研究进展:融合半监督学习与域泛化的创新策略**
该论文提出的SSL-DG核心方法是将半监督学习(SSL)和领域泛化(DG)融合起来,以解决医学图像分割的挑战,特别是针对标注数据稀缺和领域偏移问题。该方法受到类级表示的启发,提出未见目标数据可以通过简单的数据增强技术被表示为源数据的线性组合。这种方法导致了域扩散增强的提出,该技术显著丰富了领域多样性。
2024-03-14 22:19:04
2410
1
如何发表 NLP 顶会论文
2024-04-07
cvpr论文1-EDITORMagic Tokens Select Diverse Tokens for Multi-mod
2024-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人