今日CS.CV 计算机视觉论文速览
Mon, 1 Jul 2019
Totally 71 papers
?上期速览✈更多精彩请移步主页
Interesting:
?***PointFlow基于连续norm流生成点云, 提出了一种点云的生成方法PointFlow,通过构建点云分布的 分布来进行建模并在概率框架下实现点云生成。研究人员利用两级的层级分布来处理这个问题,第一层用于处理形状的分布,第二层用于处理给定形状下的点云分布。(from 康奈尔)
这使得研究人员可以在采样形状的同时也可以采样任意数量的点。这种方法通过连续的归一化流来学习两个不同层级的分布。这种可逆的归一化流可以在训练时计算似然,并使得模型可以实现变分推理。
模型的架构,训练时的编码器对输入点云进行编码,并同时输出三个损失,在测试时直接利用z进行形状和点云的采样:
生成的点云结果:
project:https://www.guandaoyang.com/PointFlow/
code:https://github.com/stevenygd/PointFlow
?基于弱监督的多任务U-Net, 基于粗糙的数据标签和少数像素级别标注的数据进行多类别分割任务(laze label data,食物的扫描电镜图像ice cream SEM images )。将实例的粗分割、分离出没有清晰边界的物体,以及像素级的分割来寻找精确的边界三个任务进行融合。(from 剑桥)
?Deep Radar Detector对于雷达信号检测进行处理, 将深度学习对于激光雷达的处理拓张到了微波雷达中,同时提出了数据集和雷达数据增强技术。(from Tel-Aviv University)
?教会cnn设计时尚衣服纹理, 提出了一种自动探索、检测合成时装的新方法(from Myntra Designs 印度 KDD 2019 Workshop)
一些得到的结果:
Daily Computer Vision Papers
PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows Authors Guandao Yang, Xun Huang, Zekun Hao, Ming Yu Liu, Serge Belongie, Bharath Hariharan 随着3D点云成为多视觉和图形应用的选择,合成或重建高分辨率,高保真点云的能力变得至关重要。尽管深度学习模型最近在点云的判别任务中取得了成功,但生成点云仍然具有挑战性。本文提出了一个原理概率框架,通过将它们建模为分布分布来生成三维点云。具体来说,我们学习了两级分布层次,其中第一层是形状的分布,第二层是给定形状的点的分布。这个公式允许我们对形状进行采样并从形状中采样任意数量的点。我们的生成模型,名为PointFlow,通过连续的标准化流程来学习每个级别的分布。归一化流的可逆性使得能够在训练期间计算可能性,并允许我们在变分推理框架中训练我们的模型。根据经验,我们证明PointFlow在点云生成方面实现了最先进的性能。我们还表明,我们的模型可以忠实地重建点云,并以无人监督的方式学习有用的表示。代码将在 |
On the notion of number in humans and machines Authors Norbert B tfai, D vid Papp, Gerg Bogacsovics, M t Szab , Viktor Szil rd Simk , M ri Bersenszki, Gergely Szab , Lajos Kov cs, Ferencz Kov cs, Erik Szilveszter Varga 在本文中,我们进行了两种类型的软件实验来研究人体和机器中的数量级分类。专注于特定类型任务的实验被称为语义MNIST或简称为SMNIST,其中必须确定放置在图像中的对象的数量。用于人类的SMNIST实验旨在测量人类目标文件系统的容量。在这种类型的实验中,测量结果与认知心理学文献中已知的值非常一致。名为SMNIST for Machines的实验用于类似的目的,但他们调查现有的,众所周知但最初为其他目的和正在开发的深度学习计算机程序开发的。这些测量结果可以解释为类似于SMNIST对人类的结果。本文的主要论文可以在机器中制定如下:当这些数值小于人类OFS的能力时,图像分类人工神经网络可以学习区分数值更高的精度。最后,我们概述了一个概念框架,用于研究人类和机器中数字的概念。 |
Adversarial Pixel-Level Generation of Semantic Images Authors Emanuele Ghelfi, Paolo Galeone, Michele De Simoni, Federico Di Mattia 生成性对抗网络GAN在生成逼真图像方面取得了非凡的成功,这是一种可接受较低像素级精度的领域。我们研究了从先前的分布开始生成语义图像的问题,但尚未在文献中解决。直观地,可以使用标准方法和体系结构来解决该问题。然而,需要更合适的方法来避免产生模糊,幻觉和因此不可用的图像,因为诸如语义分割之类的任务需要像素级精确性。在这项工作中,我们提出了一种新颖的架构,用于学习生成像素级准确的语义图像,即语义生成对抗网络SemGAN。实验评估表明,在许多语义图像生成任务中,我们的架构从定量和定性的角度都优于标准架构。 |
A Deep Decoder Structure Based on WordEmbedding Regression for An Encoder-Decoder Based Model for Image Captioning Authors Ahmad Asadi, Reza Safabakhsh 近年来,生成图像的文本描述一直是计算机视觉和自然语言处理研究人员的一个有吸引力的问题。已经提出了许多基于深度学习的模型来解决这个问题。现有方法基于配备有关注机制的神经编码器解码器结构。这些方法努力训练解码器以最小化给定先前的句子中的下一个单词的对数似然性,这导致输出空间的稀疏性。在这项工作中,我们提出了一种新的方法来训练解码器,使相对于先前的单词嵌入下一个单词的单词,而不是最小化对数似然。所提出的方法能够学习和提取长期信息,并且可以生成更长的细粒度字幕而不引入任何外部存储器单元。此外,通过所提出的技术训练的解码器可以在生成字幕时考虑所生成的字的重要性。此外,提出了一种新颖的语义注意机制,通过图像引导注意点,同时考虑先前生成的单词的含义。我们使用MS COCO数据集评估建议的方法。所提出的模型优于最先进的模型,特别是在生成更长的字幕时。它获得了等于125.0的CIDEr分数和等于50.5的BLEU 4分数,而现有技术模型的最佳分数分别为117.1和48.0。 |
Deep Radar Detector Authors Daniel Brodeski, Igal Bilik, Raja Giryes 自从引入深度学习以来,相机和激光雷达处理已经发生了革命性的变化,雷达处理仍然依赖于经典工具。在本文中,我们介绍了雷达处理的深度学习方法,直接与雷达复杂数据一起工作。为了克服雷达标记数据的缺乏,我们仅依靠雷达校准数据进行训练,并引入新的雷达增强技术。我们在雷达4D检测任务上评估我们的方法,并且与传统方法相比表现出优越的性能,同时保持实时性能。对雷达数据应用深度学习具有几个优点,例如每次都不需要昂贵的雷达校准过程,并且能够以几乎为零的开销对检测到的物体进行分类。 |
Reconstructing Perceived Images from Brain Activity by Visually-guided Cognitive Representation and Adversarial Learning Authors Ziqi Ren, Jie Li, Xuetong Xue, Xin Li, Fan Yang, Zhicheng Jiao, Xinbo Gao 基于功能磁共振成像fMRI测量的脑信号重建感知图像是脑驱动计算机视觉中的重要且有意义的任务。然而,fMRI信号和视觉图像之间的不一致分布和表示导致异质性差异,这使得学习它们之间的可靠映射具有挑战性。此外,考虑到fMRI信号具有极高的维度并且包含许多视觉上无关的信息,有效地降低噪声并编码用于图像重建的强大视觉表示也是一个开放的问题。我们表明,通过学习由相应视觉特征引导的fMRI信号的视觉相关潜在表示,并通过对抗性学习恢复感知图像,可以克服这些挑战。得到的框架称为双变分自动编码器生成对抗网络D VAE GAN。通过使用新颖的3阶段训练策略,它通过双结构变分自动编码器D VAE编码认知和视觉特征,以使认知特征适应视觉特征空间,然后学习利用生成对抗网络GAN重建感知图像。对三个fMRI记录数据集的大量实验表明,与现有技术方法相比,D VAE GAN实现了更精确的视觉重建。 |
A multi-task U-net for segmentation with lazy labels Authors Rihuan Ke, Aur lie Bugeau, Nicolas Papadakis, Peter Schuetz, Carola Bibiane Sch nlieb 对劳动密集型像素明确注释的需求是许多用于图像分割的完全监督学习方法的主要限制。在本文中,我们提出了一种用于多类分割的深度卷积神经网络,通过在粗略数据标签上训练并且仅使用具有像素明确注释的非常少量的图像来训练该问题。我们将这种新的标签策略称为懒惰标签。然后将图像分割分层为三个连接的任务,粗略检测类实例,分离错误连接的对象而没有清晰的边界,以及像素分割以找到每个对象的准确边界。这些问题被集成到多任务学习框架中,并且模型以半监督的方式端到端地进行训练。该方法应用于食物显微镜图像的数据集。我们表明,即使大多数带注释的数据缺少精确的边界标签,该模型也能提供准确的分割结果。通过收集比精确分割的图像更加懒惰的粗略注释,这允许更多的灵活性和效率来训练在手动注释昂贵的实际环境中数据饥饿的深度神经网络。 |
Filter Early, Match Late: Improving Network-Based Visual Place Recognition Authors Stephen Hausler, Adam Jacobson, Michael Milford CNN在执行位置识别方面具有优势,特别是当神经网络针对当前环境条件下的定位进行优化时。在本文中,我们研究了特征映射过滤的概念,其中,不使用卷积张量内的所有激活,而是仅使用最有用的激活。由于特定要素图编码不同的视觉特征,因此目标是移除特征贴图,这些特征贴图会降低在外观变化中识别位置的能力。我们的关键创新是在早期卷积层中过滤特征图,但随后继续运行网络并使用同一网络中的后一层提取特征向量。通过过滤早期视觉特征并从更高,更多视点不变的后期层提取特征向量,我们证明了改进的条件和视点不变性。我们的方法需要从部署环境进行训练的图像对,但我们表明,只需一个训练图像对就可以定期实现最先进的性能。进行详尽的实验分析以确定早期层过滤和后期层提取之间的因果关系的全部范围。为了有效性,我们使用三个数据集Oxford RobotCar,Nordland和Gardens Point,实现了NetVLAD的整体优越性能。这项工作提供了许多探索CNN优化的新途径,没有经过全面的培训。 |
Are you really looking at me? A Framework for Extracting Interpersonal Eye Gaze from Conventional Video Authors Minh Tran, Taylan Sen, Kurtis Haut, Mohammad Rafayet Ali, Mohammed Ehsan Hoque 尽管视频摄像机在我们日常生活中的普遍性发生了革命,但非常有意义的非语言情感交流形式之一,人际视线注视,即相对于会话伙伴的目光注视,并不能从普通视频中获得。我们介绍了Interpersonal Calibrating Eye凝视编码器ICE,它可以自动从视频录制中提取人际凝视,无需专门的硬件,也无需事先了解参与者位置。利用个人花费大量对话看彼此的直觉,使ICE动态聚类算法能够提取人际凝视。我们使用具有红外凝视跟踪器F1 0.846,N 8的客观度量在视频聊天中验证ICE,以及与眼接触r 0.37,N 170的专家评级评估的面对面通信。然后,我们使用ICE来分析两种不同但重要的情感交流领域中的行为,基于欺骗检测的审讯和快速约会中的沟通技巧评估。我们发现,在回答问题时,诚实的证人打破了人际关系的凝视联系,并且比欺骗性的证人往往更容易往下看p 0.004,d 0.79。在预测速度约会视频中的专家沟通技能评级时,我们证明单独的人际凝视比面部表情具有更强的预测能力。 |
Road-network-based Rapid Geolocalization Authors Yongfei Li, Dongfang Yang, Shicheng Wang, Hao He 利用地理信息协助无人驾驶飞行器的导航一直是研究的热点。本文提出了一种基于路网的定位方法。我们将测量图像中的道路与参考道路矢量地图进行匹配,并在与整个城市一样大的区域上实现成功定位。道路网络匹配问题被视为二维投影变换下的点云配准问题,并在假设和测试框架下求解。为了处理投影点云配准问题,提出了一种全局投影不变特征,它由两条道路交叉点组成,并增加了它们的切线信息。我们称之为两个道路交叉点元组。我们推导出用于确定来自一对匹配的两个道路交叉元组的对齐变换的封闭形式解决方案。此外,我们提出了元组匹配的必要条件。这可以减少候选匹配元组,从而在很大程度上加速搜索。我们在假设和测试框架下测试所有候选匹配元组以搜索最佳匹配。实验表明,我们的方法可以在一个cpu上在1秒内在400区域内定位目标区域。 |
New pointwise convolution in Deep Neural Networks through Extremely Fast and Non Parametric Transforms Authors Joonhyun |