【AI视野·今日CV 计算机视觉论文速览 第301期】Mon, 4 Mar 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 4 Mar 2024
Totally 74 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Point Could Mamba: Point Cloud Learning via State Space Model
Authors Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, Shuicheng Yan
在这项工作中,我们首次证明基于 Mamba 的点云方法可以优于基于点的方法。 Mamba 展现出强大的全局建模能力和线性计算复杂性,使其对点云分析极具吸引力。为了使 Mamba 能够更有效地处理 3D 点云数据,我们提出了一种新颖的一致遍历序列化,将点云转换为 1D 点序列,同时确保序列中的相邻点在空间上相邻。一致遍历序列化通过排列 x、y、z 坐标的顺序产生六种变体,这些变体的协同使用有助于 Mamba 全面观察点云数据。此外,为了帮助 Mamba 更有效地处理不同顺序的点序列,我们引入了点提示来告知 Mamba 序列的排列规则。最后,我们提出基于空间坐标映射的位置编码,以更好地将位置信息注入点云序列。基于这些改进,我们构建了一个名为 Point Cloud Mamba 的点云网络,它结合了局部和全局建模。

Can Transformers Capture Spatial Relations between Objects?
Authors Chuan Wen, Dinesh Jayaraman, Yang Gao
物体之间的空间关系代表了人类理解世界并与世界互动的关键场景信息。为了研究当前计算机视觉系统识别物理基础空间关系的能力,我们首先提出精确的关系定义,以允许一致地注释基准数据集。尽管与识别文献中的其他任务相比,该任务明显简单,但我们观察到现有方法在此基准上表现不佳。我们提出了利用变压器的长期注意力能力来完成这项任务的新方法,并评估关键设计原则。我们确定了一个简单的 RelatiViT 架构,并证明它优于当前的所有方法。据我们所知,这是第一种在野外环境中的空间关系预测方面令人信服地优于朴素基线的方法。

Rethinking Inductive Biases for Surface Normal Estimation
Authors Gwangbin Bae, Andrew J. Davison
尽管对精确表面法线估计模型的需求不断增长,但现有方法使用通用密集预测模型,采用与其他任务相同的归纳偏差。在本文中,我们讨论了表面法线估计所需的归纳偏差,并建议 1 利用每像素光线方向,2 通过学习相邻表面法线的相对旋转来编码它们之间的关系。所提出的方法可以生成清晰、分段平滑的预测,以应对任意分辨率和纵横比的野外图像的挑战。与最近基于 ViT 的最先进模型相比,我们的方法显示出更强的泛化能力,尽管是在小几个数量级的数据集上进行训练。

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
Authors Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian
信息检索是一个不断发展且至关重要的研究领域。对高质量人体运动数据尤其是在线获取的巨大需求导致了人体运动研究工作的激增。先前的工作主要集中在双模态学习,例如文本和动作任务,但很少探索三模态学习。直观上,引入额外的模态可以丰富模型的应用场景,更重要的是,额外模态的适当选择还可以充当中介并增强其他两种不同模态之间的一致性。在这项工作中,我们引入了 LAVIMO LAnguage VIdeo MOtionalignment,这是一种用于三种模态学习的新颖框架,它将以人为中心的视频作为附加模态,从而有效地弥合了文本和运动之间的差距。此外,我们的方法利用专门设计的注意力机制来促进文本、视频和运动模式之间增强的对齐和协同效应。

Hydra: Computer Vision for Data Quality Monitoring
Authors Thomas Britton, Torri Jeske, David Lawrence, Kishansingh Rajput
Hydra 是一个利用计算机视觉执行近实时数据质量管理的系统,最初于 2019 年为 D 厅开发。此后,它已部署在杰斐逊实验室的所有实验厅,其中 B 厅的 CLAS12 协作是第一个在 GlueX 之外充分利用 Hydra。该系统包括管理模型、模型推理和数据流的后端进程。前端组件可通过网页访问,允许探测器专家和值班人员查看系统并与之交互。

COLON: The largest COlonoscopy LONg sequence public database
Authors Lina Ruiz, Franklin Sierra Jerez, Jair Ruiz, Fabio Martinez
结直肠癌是全球第三大侵袭性癌症。息肉作为该疾病的主要生物标志物,可通过结肠镜检查程序进行检测、定位和表征。尽管如此,在检查过程中,由于相机移动、光线变化以及息肉和肠皱襞的密切相似性等具有挑战性的条件,多达 25 个息肉被遗漏。此外,观察和检测肠道异常区域存在明显的主观性和专家依赖性。目前,公开可用的息肉数据集使得致力于表征非参数息肉形状的计算策略取得了重大进展。这些计算策略在分割任务中取得了高达 90 分的优异成绩。尽管如此,这些策略在始终观察息肉的裁剪和专家选择的帧上运行。因此,这些计算近似值与临床场景和实际应用相距甚远,在临床场景和实际应用中,结肠镜检查在具有高结构变异性的肠道背景上是多余的。事实上,在完整的结肠镜检查记录中,息肉通常只占总观察结果的不到 1 个。这项工作引入了 COLON,这是最大的结肠镜检查长序列数据集,包含大约 3 万个息肉标记帧和 40 万个背景帧。该数据集收集自总共 30 例不同阶段息肉的完整结肠镜检查、准备程序的变化以及某些病例对手术器械的观察。此外,还集成了 10 个全肠道背景视频控制结肠镜检查,以实现稳健的息肉背景帧区分。

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
Authors Yuhao Liu, Fang Liu, Zhanghan Ke, Nanxuan Zhao, Rynson W.H. Lau
在大规模数据集上训练的扩散模型在图像合成方面取得了显着的进展。然而,由于扩散过程的随机性,他们经常难以处理需要保留细节的各种低级任务。为了克服这一限制,我们提出了一个新的 Diff 插件框架,使单个预训练的扩散模型能够在各种低级别任务中生成高保真度结果。具体来说,我们首先提出了一个具有双分支设计的轻量级任务插件模块,以提供特定于任务的先验,指导保留图像内容的扩散过程。然后,我们提出了一个插件选择器,它可以根据文本指令自动选择不同的任务插件,允许用户通过用自然语言指示多个低级任务来编辑图像。我们对 8 项低级视觉任务进行了广泛的实验。结果证明了 Diff Plugin 相对于现有方法的优越性,特别是在现实场景中。

Region-Adaptive Transform with Segmentation Prior for Image Compression
Authors Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao
近年来,学习图像压缩 LIC 取得了显着的进步。现有的作品通常采用基于 CNN 或基于自注意力的模块作为压缩的变换方法。然而,之前还没有针对特定区域的神经变换的研究。作为回应,我们引入了与类别无关的分割掩模,即没有类别标签的语义掩模,用于提取区域自适应上下文信息。我们提出的模块“区域自适应变换”在掩模引导的不同区域上应用自适应卷积。此外,我们引入了一个名为“Scale Affine Layer”的即插即用模块,以整合来自不同地区的丰富上下文。虽然之前的图像压缩工作涉及分割掩模作为额外的中间输入,但我们的方法与它们有很大不同。我们的优势在于,为了避免额外的比特率开销,我们将这些掩码视为特权信息,可以在模型训练阶段访问,但在推理阶段不需要。据我们所知,我们是第一个采用类不可知掩码作为特权信息的公司,并在像素保真度指标(例如峰值信噪比 PSNR)方面实现了卓越的性能。实验结果表明,与之前表现良好的方法相比,我们取得了进步,与 VTM 17.0 相比,比特率节省了约 8.2 倍。

Flattening Singular Values of Factorized Convolution for Medical Images
Authors Zexin Feng, Na Zeng, Jiansheng Fang, Xingyue Wang, Xiaoxi Lu, Heng Meng, Jiang Liu
卷积神经网络 CNN 长期以来一直是稳健的医学图像处理 MIP 的首选范例。因此,在具有不同计算能力的设备上有效且高效地部署CNN以支持计算机辅助诊断至关重要。许多方法采用分解卷积层来减轻有限计算资源的负担,但以牺牲表达能力为代价。为此,考虑到弱医学图像驱动的CNN模型优化,提出了奇异值均衡泛化器诱导的因式分解卷积SFConv来提高MIP模型中因式分解卷积的表达能力。我们首先将卷积滤波器的权重矩阵分解为两个低秩矩阵以实现模型缩减。然后最小化两个低秩权重矩阵和均匀分布之间的KL散度,从而减少方差显着的奇异值方向的数量。

Rethinking Few-shot 3D Point Cloud Semantic Segmentation
Authors Zhaochong An, Guolei Sun, Yun Liu, Fayao Liu, Zongwei Wu, Dan Wang, Luc Van Gool, Serge Belongie
本文重新审视了少量镜头 3D 点云语义分割 FS PCS,重点关注最先进的前景泄漏和稀疏点分布中的两个重要问题。前者源于非均匀点采样,允许模型区分前景和背景之间的密度差异,以便更容易分割。后者仅采样 2,048 个点,限制了语义信息并偏离了现实世界的实践。为了解决这些问题,我们引入了标准化的 FS PCS 设置,并在此基础上构建了新的基准。此外,我们提出了一种新颖的 FS PCS 模型。以前的方法基于特征优化,主要通过细化支持特征来增强原型,而我们的方法基于相关性优化,称为相关性优化分段 COSeg 。具体来说,我们为每个查询点计算类特定的多原型相关性 CMC,表示其与类别原型的相关性。然后,我们提出了超相关增强 HCA 模块来增强 CMC。此外,为了解决少数镜头训练的固有特性会导致模型的基础敏感性,我们建议在训练期间学习基础类的非参数原型。学习的基础原型用于通过基础原型校准 BPC 模块校准背景类的相关性。对流行数据集的实验证明了 COSeg 相对于现有方法的优越性。

Learning Causal Features for Incremental Object Detection
Authors Zhenwei He, Lei Zhang
对象检测在训练阶段限制了其可识别类别,无法覆盖用户感兴趣的所有对象。为了满足实际需要,检测器的增量学习能力成为现实世界应用的关键因素。不幸的是,神经网络在执行新任务时不可避免地会遇到灾难性的遗忘问题。为此,许多增量对象检测模型通过重放样本或从先前模型中进行蒸馏来保留先前任务的知识。然而,他们忽略了一个重要因素,即模型的性能主要取决于其特征。这些模型试图用先前的样本唤醒神经网络的记忆,但不能防止遗忘。为此,在本文中,我们通过学习因果特征提出了一种增量因果对象检测ICOD模型,该模型可以适应更多任务。传统的目标检测模型不可避免地依赖于数据偏差或数据特定特征来获得检测结果,无法适应新的任务。当模型满足增量学习的要求时,数据偏差信息对新任务不利,增量学习可能消除这些特征并导致遗忘。为此,我们引入了ICOD来学习因果特征,而不是训练检测器时的数据偏差特征。因此,当模型应用于新任务时,旧任务的因果特征可以帮助增量学习过程缓解灾难性遗忘问题。我们对模型进行了多次实验,结果表明没有数据偏差的因果特征可以使模型更好地适应新任务。

Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset
Authors Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre, Frank Keller
现有的工作已经观察到当前的文本到图像系统不能准确地反映对象之间的明确空间关系,例如左侧或下方。我们假设这是因为用于训练这些模型的图像标题中很少出现明确的空间关系。我们提出了一种自动方法,根据现有图像,生成包含 14 个显式空间关系的合成标题。我们引入了 Spatial Relation for Generation SR4G 数据集,其中包含 990 万个用于训练的图像标题对,以及超过 6 万个用于评估的标题。为了测试泛化,我们还提供了一个看不见的分割,其中训练和测试标题中的对象集是不相交的。 SR4G 是第一个可用于对文本到图像系统进行空间微调的数据集。我们表明,微调两个不同的稳定扩散模型(表示为 SD SR4G)可使 VISOR 指标提高多达 9 个点。这一改进在看不见的分割中保持不变,表明 SD SR4G 能够泛化到看不见的物体。 SD SR4G 以更少的参数改进了现有技术,并避免了复杂的架构。我们的分析表明,所有关系的改善都是一致的。

Rethinking cluster-conditioned diffusion models
Authors Nikolas Adaloglou, Tim Kaiser, Felix Michels, Markus Kollmann
我们对使用聚类分配的扩散模型的图像级调节进行了全面的实验研究。我们阐明了有关图像聚类的各个组件如何影响三个数据集的图像合成。通过结合图像聚类和扩散模型的最新进展,我们表明,给定图像合成视觉组的最佳聚类粒度,聚类调节可以实现最先进的 FID,即 CIFAR10 和 CIFAR100 上分别为 1.67、2.17,同时获得训练样本效率强。最后,我们提出了一种新颖的方法来导出聚类上界,该方法仅使用基于特征的聚类来减少视觉组的搜索空间。与现有方法不同,我们发现聚类和聚类条件图像生成之间没有显着联系。

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning
Authors Yixiong Zou, Yicong Liu, Yiman Hu, Yuhua Li, Ruixuan Li
跨域少样本学习 CDFSL 旨在通过利用从具有丰富训练样本的源域转移的先验知识,从目标域的有限训练数据中获取知识。 CDFSL 面临着跨不同领域转移知识以及使用有限的训练数据微调模型的挑战。为了应对这些挑战,我们首先将损失景观的分析从参数空间扩展到表示空间,这使我们能够同时解释 CDFSL 模型的转移和微调困难。我们观察到表示空间的损失景观中的尖锐极小值导致难以转移和微调的表示。此外,现有的基于平坦度的方法由于其短程平坦度而具有有限的泛化能力。为了增强可转移性并促进微调,我们引入了一种简单而有效的方法来实现损失景观中最小值的长程平坦化。这种方法将不同归一化的表示视为损失景观中的最小值,并通过随机采样插值表示来展平中间的高损失区域。我们将此方法实现为一个新的归一化层,取代了 CNN 和 ViT 中的原始归一化层。该层简单且轻量级,仅引入最少数量的附加参数。 8 个数据集的实验结果表明,我们的方法在平均准确度方面优于最先进的方法。此外,与当前单个数据集上的最佳方法相比,我们的方法实现了高达 9 的性能提升。

Lincoln's Annotated Spatio-Temporal Strawberry Dataset (LAST-Straw)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值