【AI视野·今日CV 计算机视觉论文速览 第190期】Fri, 9 Apr 2021

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 9 Apr 2021
Totally 81 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning optical flow from still images
Authors Filippo Aleotti, Matteo Poggi, Stefano Mattoccia
本文涉及培训光流量网络的数据稀缺,突出显示现有来源的限制,如标记的合成数据集或未标记的真实视频。具体而言,我们介绍了一个框架,可以快速地生成准确的地面真理光学流注释,并且大量从任何容易获得的单一真实图片中的速度很大。鉴于图像,我们使用架子单眼深度估计网络来构建观察到的场景的合理点云。然后,我们实际上将相机在重建的环境中用已知的运动矢量和旋转角度移动,允许我们在新帧中的一个新颖的视图和将每个像素中连接到一个新帧中的每个像素的相应光学流场。当通过我们的数据培训时,与在注释的合成数据集或未标记的视频上培训的相同型号相比,艺术光流量网络的状态实现了卓越的概括,以便与培训的相同的型号,以及如果与合成图像相结合,则更好地专业化。

Handwriting Transformers
Authors Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Mubarak Shah
我们提出了一种基于新颖的变压器的称为手写文本图像生成方法,HWT,努力学习样式内容纠缠以及全局和本地写作风格模式。所提出的HWT通过自我注意机制捕获样式示例内的长而短的关系,从而编码全局和本地风格模式。此外,所提出的基于变压器的HWT包括编码器解码器注意,通过收集每个查询字符的样式表示来实现样式内容纠缠。据我们所知,我们是第一个推出用于样式手写文本生成的变压器的生成网络。我们提出的HWT产生了现实风格的手写文本图像,并显着优于通过广泛的定性,定量和人类的评估证明了现有技术。所提出的HWT可以在几次拍摄设置中处理任意文本和任何所需的写作风格。此外,我们的HWT概括了挑战性的情景,其中单词和写作风格在训练期间看不见,产生现实风格的手写文本图像。

InfinityGAN: Towards Infinite-Resolution Image Synthesis
Authors Chieh Hubert Lin, Hsin Ying Lee, Yen Chi Cheng, Sergey Tulyakov, Ming Hsuan Yang
我们呈现InfinityGan,一种生成任意分辨率图像的方法。问题与若干关键挑战有关。首先,在高分辨率训练数据的计算和可用性方面,将现有模型缩放到高分辨率的资源受限。 Infinity GaN列车和Infers Patch由贴片无缝与低计算资源。其次,大图像应在本地和全球一致,避免重复模式,看起来逼真。要解决这些,infinitygan考虑到全局外观,本地结构和纹理。在此配方中,我们可以在不可达到的情况下使用分辨率和细节级别生成图像。实验评估支持,与基线相比,InfinityGa在具有相同的相同推论的同时相比,与基线相比,卓越的全局结构。最后,我们如何通过我们的方法解锁的几个应用程序,例如在任意输入和输出分辨率下融合样式,多模态分辨率和图像中的多模态分子和图像

Panoptic Segmentation Forecasting
Authors Colin Graber, Grace Tsai, Michael Firman, Gabriel Brostow, Alexander Schwing
我们的目标是在最近的一系列意见中预测不久的将来。我们认为这种预测的能力,即预期,是对自治代理的成功的一体化,这不仅需要被动地分析观察,而且必须实时对其作出反应。重要的是,在所选场景分解时准确的预测铰链。我们认为通过将动态场景分解为单个事物和背景的东西,可以实现卓越的预测。由于相机运动,背景材料很大程度上移动,而前景的东西因相机和各个对象运动而移动。在这种分解之后,我们介绍了Panoptic分割预测。 Panoptic Semonation预测在现有极端之间开辟了一个中间地,预测例轨迹或预测未来图像帧的外观。要解决此任务,我们开发了一个两个组件模型,一个组件通过预期内径测量来学习背景的动态,另一个组件预计检测到的东西的动态。我们建立了这部小型任务的排行榜,并验证了优于可用基线的最佳艺术模型的状态。

Modulated Periodic Activations for Generalizable Local Functional Representations
Authors Ishit Mehta, Micha l Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi, Manmohan Chandraker
多层Perceptrons MLP为涉及图像,形状和光场等低维信号的采样和重建问题做出强大的功能表示。最近的作品通过使用定期激活或位置编码,它们的能力显着提高了代表高频内容的能力。这通常是以泛化的牺牲,现代方法通常针对单个信号进行优化。我们提出了一种推广到多个实例的新代表,实现了艺术忠诚的状态。我们使用双重MLP架构来编码信号。合成网络从低维输入产生功能映射。像素位置到输出域的e .g。 RGB颜色。调制网络将对应于目标信号的潜像映射到调制合成网络的周期性激活的参数。我们还提出了一种实现泛化的本地功能表示。信号S域被划分为常规网格,每个图块由潜在代码表示。在测试时间时,通过推断或直接优化潜在代码书,通过高保真对信号进行编码。我们的方法产生了可概括的图像,视频和形状的功能表示,并且可以实现比对单个信号进行优化的先前作品的更高的重建质量。

Just Label What You Need: Fine-Grained Active Selection for Perception and Prediction through Partially Labeled Scenes
Authors Sean Segal, Nishanth Kumar, Sergio Casas, Wenyuan Zeng, Mengye Ren, Jingkang Wang, Raquel Urtasun
自动驾驶车辆必须感知并预测附近演员的未来位置,以避免安全碰撞和驱动。学习的深度学习模块通常负责此任务,需要大规模,高质量的培训数据集。由于数据收集通常比在该域中的标记更明显便宜,因此标签的示例子集的决定可以对模型性能产生深远的影响。积极学习技术,利用当前模型的状态来迭代选择标签的示例,为这个问题提供了一个有希望的解决方案。然而,尽管对这种方法有吸引力,但对感知和预测P P P问题的积极学习方法几乎没有科学分析。在这项工作中,我们研究了P P的主动学习技术,并发现传统的主动学习配方不适合P P设置。因此,我们引入了概括,以确保我们的方法既是成本意识,则通过部分标记的场景允许精细磨碎的例子选择。我们对现实世界的实验,大规模的自动驾驶数据集表明,细粒度的选择可以改善感知,预测和下游规划任务的性能。

De-rendering the World's Revolutionary Artefacts
Authors Shangzhe Wu, Ameesh Makadia, Jiajun Wu, Noah Snavely, Richard Tucker, Angjoo Kanazawa
最近的作品在没有明确的监督的情况下,在没有明确的监督的情况下,令人兴奋的令人兴奋的令人兴奋的图像De渲染学习。然而,许多这些假设简单的材料和照明模型。我们提出了一种方法,称为雷达,可以从真正的单个图像集合中恢复环境照明和表面材料,既不依赖于显式3D监督,也不是多视图或多光图像。具体而言,我们专注于旋转对称的人工制品,其表现出挑战性表面性质,包括镜面反射,例如花瓶。我们介绍了一种新颖的自我监督的Albedo鉴别员,它允许模型来恢复合理的Albedo,而无需在培训期间的任何基础真理。结合一种利用旋转对称的形状重建模块,我们展示了最终学习框架,能够揭示世界的革命人工制品。我们在真正的花瓶数据集上进行实验,并展示引人注目的分解结果,允许包括自由视点渲染和致密的应用。

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes
Authors Xu Chen, Yufeng Zheng, Michael J. Black, Otmar Hilliges, Andreas Geiger
神经隐式表面表示已成为有希望以连续和分辨率独立的方式捕获3D形状的有希望的范例。然而,将它们适应铰接形状是非微不足道的。现有方法学习落后的扭曲领域,即地图变形到规范点。然而,这是有问题的,因为后向扭曲字段是姿势的姿势,因此需要大量数据来学习。为了解决这一点,我们介绍了Snarf,它通过学习未直接监督的前向变形领域与神经隐式表面的那些相结合了线性混合皮肤的优势。该变形场在规范,构成独立空间中定义,允许概括地看不见。自单独从构成网格中学习变形字段是具有挑战性,因为变形点的相应关系被隐含地定义,并且在拓扑的变化下可能不是唯一的。我们提出了一种前进的剥皮模型,使用迭代根发现,找到任何变形点的所有规范对应关系。我们通过隐式差分衍生分析梯度,从而实现与骨转换的3D网格的结束训练。与艺术神经隐含表示的状态相比,我们的方法在保持准确性的同时,更好地概括了未经造成的姿势。我们展示了我们在多样化和看不见姿势的披上3D人体上具有挑战性的情景的方法。

The Single-Noun Prior for Image Clustering
Authors Niv Cohen, Yedid Hoshen
近年来,自我监督的聚类方法已经取得了越来越高的准确性,但尚未履行和监督分类方法。这与特征学习的情况形成鲜明对比,自我监督的功能最近超过了在几个重要任务上的监督功能的性能。我们假设性能差距是由于在没有监督的情况下指定的难度,该特征对应于对人类的阶级差异。为了降低性能差距,我们介绍了单个名词,该名词在哪个名词中,该名词倾向于对应于单个名词的人类标签的概念。通过利用预训练的网络将图像和句子映射到公共空间中,我们将此提前获得受约束的优化任务。我们表明,我们的配方是设施位置问题的特殊情况,并引入了一种简单但有效的方法,可以在规模上解决此优化任务。我们在几个常见的图像聚类数据集中测试我们的方法,并获得最佳现有方法的显着准确性。

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations
Authors Guanghao Yin, Wei Wang, Zehuan Yuan, Shouqian Sun, Changhu Wang
虽然单幅图像超分辨率SISR方法在单次劣化方面取得了巨大成功,但它们仍然在实际情况下具有多重降级效果的性能下降。最近,已经探讨了一些盲人和非盲模型,用于多重降级。但是,这些方法通常在训练和测试数据之间的分配转移方面显着降低。为此,我们第一次提出了一个名为CMDSR的条件元网络框架,这有助于SR框架了解如何适应输入分布的变化。我们在任务级别提取劣化,其中包含所提出的ConditionNet,该条件将用于调整基本SR网络基本集的参数。具体而言,我们的框架的ConditionNet首先从支撑集之前了解了劣化,该支持集由来自同一任务的一系列劣化图像补丁组成。然后,Adaptive BaseNet根据条件特征迅速移动其参数。此外,为了更好地提高提取劣化,我们提出了一个任务对比损失,以减少内部任务距离,并增加任务级别功能之间的交叉任务距离。如果没有预定义的降级地图,我们的盲框可以进行一个参数更新以产生相当大的SR结果。广泛的实验证明了CMDSR在各种盲,甚至是非盲方法上的有效性。柔性基板结构还揭示了CMDSR可以是大型SISR模型的一般框架。

Field Convolutions for Surface CNNs
Authors Thomas W. Mitchel, Vladimir G. Kim, Michael Kazhdan
我们介绍了一种新的表面卷积运算符,用于基于简单观察的矢量字段,而不是组合相对于在给定点定义的单个坐标参数化的相邻特征,我们每个邻居描述其自己的坐标内的点的位置框架。该制剂在散射操作中与平行的运输结合了固有的空间卷积,同时在滤波器本身上没有约束,提供了与体内测定的作用通道的卷积的定义,具有增加的描述性潜力,并且对噪声和其他滋扰因素具有鲁棒性。结果是我们呼叫现场卷积的卷积的丰富概念,非常适合在表面上的CNNS。现场卷积灵活且直接向实施,其高度辨别性质在整个学习管道中具有级联效应。使用由残余字段卷积块构建的简单网络,我们在基本几何处理任务中实现了最新的标准基准,例如形状分类,分段,通信和稀疏匹配。

Enhancing Object Detection for Autonomous Driving by Optimizing Anchor Generation and Addressing Class Imbalance
Authors Manuel Carranza Garc a, Pedro Lara Ben tez, Jorge Garc a Guti rrez, Jos C. Riquelme
对象检测是过去几年电脑愿景中最活跃的主题之一。最近的作品主要集中在通用CoCo基准中推动现有技术。然而,在特定应用中使用这种检测框架,例如自主驱动是要解决的一个区域。本研究介绍了基于更快的R CNN的增强型2D对象检测器,其更适合自动车辆的背景。两个主要方面改善了锚生成过程和少数群体的性能下降。由于车辆摄像机的透视突起,默认均匀锚固配置在这种情况下不适合。因此,我们提出了一种通过聚类将图像划分为关键区域的透视意识方法,并使用进化算法来优化每个算法。此外,我们通过包括第一阶段中提出的候选区域的空间信息,添加模块,该模块通过包括第一阶段中提出的候选区域的空间信息来增强第二级报头网络的精度。我们还探讨了不同的RE加权策略来解决前景前景级的不平衡,表明使用减少的焦损版本可以在两个阶段检测器中显着改善困难和不足的物体的检测。最后,我们设计了一个集合模型,以结合不同学习策略的优势。我们的提案是用Waymo Open DataSet进行评估,这是最广泛和多样化的最新。结果表明,使用最佳单一型号时的6.13映射的平均精度改进,以及集合的9.69张图。在更快的R CNN上提出的修改不会增加计算成本,并且可以很容易地扩展以优化基于锚的检测框架。

SMD-Nets: Stereo Mixture Density Networks
Authors Fabio Tosi, Yiyi Liao, Carolin Schmitt, Andreas Geiger
尽管在过去的几年中,尽管立体声匹配准确性大大提高了深入学习,但恢复了尖锐的边界和高分辨率高效仍然具有挑战性。在本文中,我们提出了立体声混合密度网络SMD网,这是一种简单但有效的学习框架,兼容了一个广泛的2D和3D架构,可改善这两个问题。具体而言,我们利用双峰混合密度作为输出表示,并表明这允许在不连续性附近的夏普和精确的差异估计,同时明确地建模了观察中固有的炼膜不确定性。此外,我们将视差估计作为图像域中的持续问题制定,允许我们的模型以任意空间精度查询差异。我们对新的高分辨率和高度现实的合成立体声数据集进行了全面的实验,该数据集由8Mpx分辨率的立体声对,以及现实世界立体声数据集。我们的实验表明了对象边界附近的深度精度和标准GPU上的超高分辨率差异图的预测。我们通过提高各种立体声骨架的性能来展示我们技术的灵活性。

Modeling Object Dissimilarity for Deep Saliency Prediction
Authors Bahar Aydemir, Deblina Bhattacharjee, Seungryong Kim, Tong Zhang, Mathieu Salzmann, Sabine S sstrunk
在过去的二十年中,显着性预测使得电流技术建模低级信息,例如颜色,强度和尺寸对比度,以及用于整个物体的高级,例如关注和凝视方向。尽管如此,这些方法未能考虑对象之间的异常,人类自然而然。在本文中,我们介绍了一种检测引导显着性预测网络,明确地模拟了多个对象之间的差异,例如它们的外观和大小不同。我们的方法是普遍的,允许我们融合我们的对象异化,并通过任何深度显着性预测网络提取的特征来融合。正如我们的实验所证明的那样,这一致始终提高基线网络的准确性,使我们能够以三个显着基准,即Salicon,MIT300和Cat2000优于艺术模型的状态。

3D Surfel Map-Aided Visual Relocalization with Learned Descriptors
Authors Haoyang Ye, Huaiyang Huang, Marco Hutter, Timothy Sandy, Ming Liu
在本文中,我们介绍了一种使用来自3D Surfel映射的几何信息来迁移的方法。 Visual数据库首先由来自3D Surfel映射渲染的全局索引构建,它提供了图像点和3D冲浪之间的关联。使用REFEL再扩张约束用于优化视觉数据库中的关键帧姿势和映射点。然后,分层相机重锁化算法利用可视数据库来估计6个DOF相机姿势。学习描述符进一步用于提高具有挑战性的情况下的性能。我们在现实世界的条件和模拟下提出评估,以显示我们方法的有效性和效率,并使最终相机与3D环境一致良好对齐。

Towards End-to-End Neural Face Authentication in the Wild - Quantifying and Compensating for Directional Lighting Effects
Authors Viktor Varkarakis, Wang Yao, Peter Corcoran
最近的低功耗神经加速器硬件的可用性,结合端到端的神经面部识别算法的改进,为设备面部认证提供了技术。本研究工作探讨了定向照明对艺术状态的效果SOA神经面识别器。由于具有足够的定向照明变化的公共数据集,合成RE照明技术用于增强数据样本。顶部照明及其变体左上角,右上方被发现对精度具有最小效果,而左下方或右下方的右侧灯具具有最明显的效果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值