【AI视野·今日CV 计算机视觉论文速览 第238期】Fri, 1 Oct 2021

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 1 Oct 2021
Totally 62 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Sensor-Guided Optical Flow
Authors Matteo Poggi, Filippo Aleotti, Stefano Mattoccia
本文提出了一个框架来引导具有外部线索的光流网络,以在已知或不可见的域上实现卓越的准确性。鉴于来自外部源的稀疏但准确的光流提示的可用性,它们被注入以调制由最先进的光流网络计算的相关分数,并引导它进行更准确的预测。尽管没有真正的传感器可以提供稀疏流提示,但我们展示了如何通过将有源传感器的深度测量与几何和手工制作的光流算法相结合来获得这些提示,从而为我们的目的提供足够准确的提示。

Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation
Authors Jay Patravali, Gaurav Mittal, Ye Yu, Fuxin Li, Mei Chen
我们将 MetaUVFS 作为第一个用于视频少镜头动作识别的无监督元学习算法。 MetaUVFS 利用超过 550K 的未标记视频通过对比学习来训练两个流的 2D 和 3D CNN 架构,以分别捕获外观特定的空间和动作特定的时空视频特征。 MetaUVFS 包含一个新颖的 Action Appearance Aligned Meta 适配 A3M 模块,该模块通过对无监督硬挖掘剧集的显式少镜头情节元学习来学习关注与外观特征相关的面向动作的视频特征。我们的动作外观对齐和显式少镜头学习器条件无监督训练以模仿下游的少镜头任务,使 MetaUVFS 在少镜头基准上显着优于所有无监督方法。此外,与之前受监督的少数镜头动作识别方法不同,MetaUVFS 既不需要基类标签,也不需要受监督的预训练主干。

Identity-Disentangled Neural Deformation Model for Dynamic Meshes
Authors Binbin Xu, Lingni Ma, Yuting Ye, Tanner Schmidt, Christopher D. Twigg, Steven Lovegrove
神经形状模型可以表示具有紧凑潜在空间的复杂 3D 形状。然而,当应用于动态变形形状(例如人手)时,它们需要保持变形的时间连贯性以及主体的内在身份。这些属性很难用手动设计的损失函数进行正则化。在本文中,我们学习了一种神经变形模型,该模型使用隐式神经函数将身份引起的形状变化与姿态相关变形分开。我们对 3D 扫描执行无模板无监督学习,没有明确的网格对应或跨主题形状的语义对应。然后,我们可以应用学习到的模型来重建执行看不见的动作的新对象的部分动态 4D 扫描。我们提出了两种方法来将全局姿态对齐与我们的神经变形模型相结合。实验证明了我们的方法在解开身份和姿势方面的有效性。

Unsupervised Domain Adaptation for LiDAR Panoptic Segmentation
Authors Borna Be i , Nikhil Gosala, Daniele Cattaneo, Abhinav Valada
场景理解是自动驾驶汽车在环境中安全导航的关键任务。深度学习的最新进展可以从 LiDAR 数据中准确地重建周围环境的语义。然而,这些模型在配备不同 LiDAR 设置的车辆上部署时遇到了很大的领域差距,这大大降低了它们的性能。由于记录和手动标记新数据的过程昂贵且繁琐,因此无法为每个新设置微调模型。因此,无监督域适应 UDA 技术对于填补这一领域空白并在新传感器设置上保持模型的性能至关重要,而无需额外的数据标记。在本文中,我们提出了 AdaptLPS,这是一种用于 LiDAR 全景分割的新型 UDA 方法,它利用特定于任务的知识并考虑了扫描线数量、安装位置、强度分布和环境条件的变化。我们通过采用两种互补的域适应策略(基于数据和基于模型)来解决 UDA 任务。虽然基于数据的适应通过处理原始 LiDAR 扫描以类似于目标域中的扫描来减少域差距,但基于模型的技术指导网络提取代表两个域的特征。

Transferability Estimation for Semantic Segmentation Task
Authors Yang Tan, Yang Li, Shao Lun Huang
可迁移性估计是迁移学习中的一个基本问题,用于预测将源模型或源任务迁移到目标任务时的性能有多好。在可迁移性分数的指导下,我们可以有效地选择高度可迁移的源模型,而无需在实践中进行真正的迁移。最近的分析可迁移性指标主要是为图像分类设计的,目前还没有针对语义分割任务的可迁移性估计的具体研究,这是自动驾驶、医学图像分析等中的基本问题。因此,我们进一步扩展了最近的分析可转移性度量 OTCE 基于最优传输的条件熵分数到语义分割任务。应用 OTCE 分数的挑战是高维分割输出,在可接受的计算成本下很难找到这么多像素之间的最佳耦合。因此,我们建议随机采样 N 个像素来计算 OTCE 分数,并将 K 次重复的期望作为最终的可转移性分数。

Real-Time Tactile Grasp Force Sensing Using Fingernail Imaging via Deep Neural Networks
Authors Navid Fallahinia, Stephen Mascaro
本文介绍了一种仅通过视觉实时估计人类指尖施加的 3D 触觉力的新方法。引入的方法完全基于单目视觉,不需要任何物理力传感器。因此,它是可扩展的、非侵入性的,并且很容易与其他感知系统(如身体姿势估计)融合,使其成为需要力感测的 HRI 应用的理想选择。引入的方法由三个主要模块组成:用于检测和跟踪每个单独手指的手指跟踪、用于保留图像中空间信息的图像对齐以及用于从图像中的着色模式估计 3D 力的力模型。该模型已通过实验实施,结果表明,对于沿所有三个方向的整个力水平范围,最大 RMS 误差为 8.4。

Self-Supervised Out-of-Distribution Detection and Localization with Natural Synthetic Anomalies (NSA)
Authors Hannah M. Schl ter, Jeremy Tan, Benjamin Hou, Bernhard Kainz
我们引入了一个新的自监督任务 NSA,用于训练端到端模型,仅使用正常数据进行异常检测和定位。 NSA 使用泊松图像编辑从单独的图像中无缝混合各种大小的缩放补丁。这产生了广泛的合成异常,与之前用于自监督异常检测的数据增强策略相比,这些异常更类似于自然子图像的不规则性。我们使用自然和医学图像评估所提出的方法。我们使用 MVTec AD 数据集进行的实验表明,训练用于定位 NSA 异常的模型可以很好地泛化到检测现实世界中的先验未知类型的制造缺陷。

Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language Navigation in Continuous Environments
Authors Sonia Raychaudhuri, Saim Wani, Shivansh Patel, Unnat Jain, Angel X. Chang
在视觉和语言导航 VLN 任务中,实体代理遵循自然语言指令在 3D 环境中导航。此任务中的一个挑战是如何处理代理偏离参考路径的路径场景。先前的工作基于从代理的位置到目标的最短路径来监督代理,但这种面向目标的监督通常与指令不一致。此外,先前工作采用的评估指标并没有衡量代理能够遵循多少语言指令。

You Cannot Easily Catch Me: A Low-Detectable Adversarial Patch for Object Detectors
Authors Zijian Zhu, Hang Su, Chang Liu, Wenzhao Xiang, Shibao Zheng
盲点或彻头彻尾的欺骗可能会欺骗和欺骗机器学习模型。诸如数字贴纸(也称为对抗性补丁)之类的不明物体可以欺骗面部识别系统、监控系统和自动驾驶汽车。幸运的是,大多数现有的对抗性补丁可以被称为对抗性补丁检测器的简单分类网络智取、禁用和拒绝,该网络将对抗性补丁与原始图像区分开来。物体检测器对图像中物体的类型进行分类和预测,例如通过区分摩托车手和摩托车,同时还通过在每个物体周围绘制所谓的边界框来定位每个物体在图像中的位置,再次将摩托车手与摩托车分开摩托车。然而,为了更好地训练检测器,我们需要在探索模型盲点时不断让它们经受令人困惑或欺骗性的对抗性补丁。对于此类探针,我们提出了一种新颖的方法,即低可检测对抗性补丁,该方法使用小且纹理一致的对抗性补丁攻击目标检测器,从而降低这些对手被识别的可能性。具体来说,我们使用几个几何图元来模拟补丁的形状和位置。为了提高我们的攻击性能,我们还根据损失函数为边界框分配了不同的权重。

CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation
Authors Xiao Wang, Jingen Liu, Tao Mei, Jiebo Luo
一些认知研究发现,人类完成事件分割是作为事件预期的副作用。受这一发现的启发,我们提出了一个简单而有效的端到端自监督学习框架,用于事件分割边界检测。与主流的基于聚类的方法不同,我们的框架利用基于变换器的特征重建方案通过重建错误来检测事件边界。这与人类通过利用他们的预测与实际感知之间的偏差来发现新事件的事实是一致的。由于语义上的异质性,边界处的帧通常难以重建,重建误差较大,有利于事件边界检测。此外,由于重建发生在语义特征级别而不是像素级别,我们开发了一个时间对比特征嵌入模块来学习帧特征重建的语义
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值