今日CS.CV 计算机视觉论文速览
Wed, 17 Jul 2019
Totally 45 papers
?上期速览✈更多精彩请移步主页
Interesting:
?基于残差金字塔的单目深度估计方法, 场景的结构和目标的细节决定了深度图重建的效果,对于室内深度估计来说,全局结果针对布局而局域结构则反映了物体表面的细节。这篇文章从多尺度地角度来分析深度估计的问题,采用了残差金字塔解码器,在顶层表达全局布局在底层表达表面细节。每一层及的残差模块都预测对应的尺度,并从前一级粗糙的尺度上预测后一级更为精细的尺度。为了充分探索多尺度图像特征,自适应稠密特征融合被用于对多尺度的特征进行融合,并在NYU-Depth-v2上取得了良好的效果。(from 中科大)
研究人员提出的架构,主要包括了估计各尺度深度图的残差金字塔解码器、用于特征融合的自适应稠密特征融合模块。残差金字塔有效预测了结构的细节,在较为粗糙的层级上天剑了细节信息实现了更为精细的表示。
解码器中残差精炼模块的细节:
结果与比较:
code:https://github.com/Xt-Chen/SARPN
?S&CNet基于通道和空间注意力的实时单目深度提升算法, 研究人员提出了一种基于空间和通道的单目深度估计提升方法,其中空间方面的注意力来自于研究人员观察到比较小的编码器输出步长将保留更多的细节但同时限制了感受野,所以研究人员逐空间的注意力机制来捕捉长程信息;对于通道方面,研究人员发现不同的通道特征对于不同距离的响应不同,于是利用通道注意力机制使得特定的距离对特定的通道赋予更多的权重,为了更进一步的提高模型表现,研究人员还是用了精炼模块来提升深度估计的精度。(from 北航)
模型的架构:
空间和通道提升模块3.2details,上面红色虚线框为通道注意力模块,下面绿色虚线框为空间注意力模块(选择每个位置的特征进行融合,value,key和query map):
下图可以看到不同通道对于不同距离的响应:
?基于感知方法的图像修复评价指标, 研究人员对9种图像修复法进行主观比较,随后提出了一种客观的评价指标。(from 罗蒙索夫技术大学)
ref主观评价平台:http://www.subjectify.us/
?700类人体动作数据集Kinetics-700, (from 谷歌)
competition:http://activity-net.org/challenges/2019/evaluation.html
dataset:https://deepmind.com/research/open-source/open-source-datasets/kinetics/
slilde:https://drive.google.com/file/d/164kU_MFTKzmefbgOLntuiiTmADutl_x0/view
?FoodX-251细粒度食物分类数据集, 包含了251个细粒度的食物分类供158k张图像,118kTrain40kValidate,提供了baseline(from SRI:斯坦福国际研究所 谷歌 CornellTech康奈尔科技校区)
一些相关的数据集:
competition:https://www.kaggle.com/c/ifood-2019-fgvc6
code:https://github.com/karansikka1/iFood_2019
ref2018:https://github.com/karansikka1/Foodx
CVDF:https://github.com/karansikka1/Foodx
?Quick, Draw! 数据集分析, 谷歌的草图画画数据集,包括了50m图像345类的数据。(from Universidad Carlos III de Madrid)
model:https://github.com/tensorflow/models/blob/080347bc9056fdb8f0a2236ccdb5bfef1cdf0cca/tutorials/rnn/quickdraw/train_model.py
https://github.com/googlecreativelab/quickdraw-dataset
https://quickdraw.withgoogle.com/
?***SynthText3D,为三维的虚拟场景合成包含文字图像 (from 华中科技 北大 )
目前的三维渲染包括,在静止背景上渲染不同物体的数据、随机摆放物体和利用商业游戏引擎,包括GTA V UrealCV[24–30,3,7,32,34]
主要关注场景图像的渲染与合成2.2, part.3 数据合成借鉴
code:https://github.com/MhLiao/SynthText3D
Daily Computer Vision Papers
On the ''steerability" of generative adversarial networks Authors Ali Jahanian, Lucy Chai, Phillip Isola 当代机器学习的一个公开秘密是,许多模型在标准基准测试中运行良好,但未能在实验室外进行推广。这归因于对有偏见数据的培训,这些数据对现实世界事件的覆盖率较低。生成模型也不例外,但生成对抗网络GAN的最新进展表明,否则这些模型现在可以合成出惊人的逼真和多样化的图像。照片的生成建模是一个解决的问题我们表明,尽管当前的GAN可以很好地适应标准数据集,但它们仍然不能成为视觉流形的综合模型。特别是,我们研究了它们适应简单变换的能力,例如相机移动和颜色变化。我们发现模型反映了它们被训练的数据集的偏差,例如,居中的物体,但它们也表现出一些通过在潜在空间中转向来推广的能力,我们可以在仍然创建逼真图像的同时改变分布。我们假设分布变化的程度与训练数据分布的广度有关,并进行证明这一点的实验。代码在我们的项目页面上发布 |
Predicting Next-Season Designs on High Fashion Runway Authors Yusan Lin, Hao Yang 时尚是一个庞大而快速变化的行业。预见即将到来的流行趋势对时装设计师,消费者和零售商都有好处。然而,由于设计师主观性所涉及的大量因素,时尚趋势通常被认为是不可预测的。在本文中,我们提出了一个时尚趋势预测框架和设计神经网络模型,以利用结构化的时装秀跑道展示数据,学习时装系列嵌入,并进一步训练RNN LSTM模型,以捕捉设计师风格的演变。我们提出的框架包括1个跑道嵌入学习模型,该模型使用时装跑道图像来学习每个季节的集合嵌入,2个下一季时装设计预测模型利用设计师风格和趋势的概念来预测下一季设计给予设计师。通过对32年时装秀的收集数据集进行实验,我们的框架在预测下一季的设计时,平均可以达到78.42 AUC的最佳性能,而单个设计师可以达到95。 |
EnforceNet: Monocular Camera Localization in Large Scale Indoor Sparse LiDAR Point Cloud Authors Yu Chen, Guan Wang 姿态估计是机器人应用的基本构建块,例如自动驾驶车辆,无人机和大规模增强现实。对于那些应用进行大规模生产而言,这也是一个禁止因素,因为现有技术的厘米级姿态估计通常需要长的映射程序和昂贵的定位传感器,例如, LiDAR和高精度GPS IMU等。为了克服成本障碍,我们提出了一种基于神经网络的解决方案,用于在具有可比厘米级精度的先前稀疏LiDAR图中定位消费者级RGB相机。我们通过引入一种新颖的网络模块(我们称之为电阻模块)来实现它,以便更好地推广网络,更准确地预测并更快地收敛。这些结果以我们在大型室内停车场场景中收集的几个数据集为基准。我们计划打开社区的数据和代码,以加入推进这一领域的努力。 |
学习高效的降采样方法Efficient Segmentation: Learning Downsampling Near Semantic Boundaries Authors Dmitrii Marin, Zijian He, Peter Vajda, Priyam Chatterjee, Sam Tsai, Fei Yang, Yuri Boykov 诸如自动驾驶之类的许多自动化过程依赖于良好的语义分段作为关键组件。为了加快性能,通常对输入帧进行下采样。然而,这是以丢失小对象和降低语义边界精度为代价的。为了解决这个问题,我们提出了一种新的内容自适应下采样技术,该技术学习了有利于在目标类的语义边界附近的采样位置。成本绩效分析表明,我们的方法始终优于统一抽样,提高了准确性和计算效率之间的平衡。我们的自适应采样为分割提供了更好的边界质量,并为更小尺寸的物体提供了更可靠 |
++目标检测数据的需求How much real data do we actually need: Analyzing object detection performance using synthetic and real data Authors Farzan Erlik Nowruzi, Prince Kapoor, Dhanvin Kolhatkar, Fahed Al Hassanat, Robert Laganiere, Julien Rebut 近年来,深度学习模型已经在包括计算机视觉在内的各个领域取得了巨大的进步。从本质上讲,深度模型的监督培训需要大量数据。这种理想情况通常不易处理,因为数据注释是一项非常耗费精力且成本高昂的任务。另一种方法是使用合成数据。在本文中,我们将全面研究用合成数据替换实际数据的效果。我们进一步分析了拥有有限数量的实际数据的影响。我们使用多个合成和真实数据集以及模拟工具来创建大量廉价注释的合成数据。我们分析每个数据集的域相似性。我们提供了有关设计使用这些数据集训练深度网络的方法程序的见解。 |
Pedestrian Tracking by Probabilistic Data Association and Correspondence Embeddings Authors Borna Bi ani , Marin Or i , Ivan Markovi , Sini a egvi , Ivan Petrovi 本文研究了在多目标行人跟踪中建立对应关系的运动学位置与速度和外观线索之间的相互作用。我们通过基于深度学习检测器,联合集成概率数据关联JIPDA和基于外观的深度对应嵌入跟踪的检测方法来研究跟踪。我们首先通过微调卷积检测器来进行固定摄像机设置,以便进行精确的行人检测,并将其与仅运动JIPDA相结合。由此产生的提交在3DMOT2015基准测试中排名第一。然而,在具有移动摄像机和未知自我运动的序列中,我们通过用深度对应嵌入的全局最近邻跟踪替换运动线索来实现最佳结果。我们通过使用由边际项延长的角度损失从ResNet 18的第二个块中微调特征来训练嵌入。我们注意到,直接在JIPDA中集成深度通信嵌入并没有带来显着的改进。看来,用于软数据关联的深度对应嵌入的几何形状需要进一步研究,以便从两个世界中获得最佳效果。 |
Uncertainty-aware Self-ensembling Model for Semi-supervised 3D Left Atrium Segmentation Authors Lequan Yu, Shujun Wang, Xiaomeng Li, Chi Wing Fu, Pheng Ann Heng 训练深度卷积神经网络通常需要大量标记数据。然而,为医学图像分割任务注释数据是昂贵且耗时的。在本文中,我们提出了一种新的不确定性感知半监督框架,用于从三维MR图像左心房分割。我们的框架可以通过鼓励在不同扰动下对相同输入的一致预测来有效地利用未标记的数据。具体地,该框架由学生模型和教师模型组成,并且学生模型通过最小化关于教师模型的目标的分段丢失和一致性损失来从教师模型学习。我们设计了一种新颖的不确定性感知方案,使学生模型能够通过利用不确定性信息逐步从有意义和可靠的目标中学习。实验表明,我们的方法通过合并未标记的数据实现了高性能增益。我们的方法优于现有技术的半监督方法,展示了我们的框架对具有挑战性的半监督问题的潜力。 |
Data Selection for training Semantic Segmentation CNNs with cross-dataset weak supervision Authors Panagiotis Meletis, Rob Romijnders, Gijs Dubbelman 训练卷积网络用于具有强像素和弱边界框监督的语义分割需要大量弱标记数据。我们提出了两种在弱监督下选择最相关数据的方法。第一种方法设计用于在不需要标签的情况下查找视觉上相似的图像,并且基于使用高斯混合模型GMM建模图像表示。作为GMM建模的副产品,我们提供了有关表征数据生成分布的有用见解。第二种方法旨在寻找具有高对象多样性的图像,并且仅需要边界框标签。这两种方法都是在自动驾驶的背景下开发的,并且在Cityscapes和Open Images数据集上进行实验。我们通过将开放图像使用的弱标签图像数量减少100倍,使城市景观最多减少20倍来证明性能提升。 |
Improving Semantic Segmentation via Dilated Affinity Authors Boxi Wu, Shuai Zhao, Wenqing Chu, Zheng Yang, Deng Cai 引入结构预测的显式约束是提高语义分割模型性能的有效方法。现有方法主要基于仅仅部分捕获图像结构的手工制作规则不足,并且一些方法也可能遭受效率问题。结果,大多数现有技术的完全卷积网络都没有采用这些技术。在这项工作中,我们提出了一种简单,快速而有效的方法,通过直接监督和较小的额外费用来利用结构信息。具体而言,我们的方法明确要求网络预测语义分割以及扩展的亲和力,这是成对像素亲和力的稀疏版本。描述像素之间关系的能力直接建立在模型中,并分两个阶段提高分割质量。 1具有扩张亲和力的联合训练可以提供强大的特征表示,从而产生更精细的分割结果。 2可以进一步利用亲和度信息的额外输出来利用快速传播过程来细化原始分割。在将我们的框架应用于现有技术模型时,在各种基准数据集上观察到一致的改进。代码将很快发布。 |
Perception of visual numerosity in humans and machines Authors Alberto Testolin, Serena Dolfi, Mathijs Rochus, Marco Zorzi 数字学习是数学学习的基础,但其计算基础受到激烈争论。一些研究者认为,人类被赋予了支持数值表示的专门系统,其他人则认为视觉数值是使用连续的大小来估算的,例如密度或面积,这通常随着数量而变化。在这里,我们通过测试与人类相同的数字量比较任务的深度网络来协调这些对比的观点,使用允许测量非数字特征的贡献的刺激空间。我们的模型准确地模拟了数字感知的心理物理学,并且相关的发育变化歧视是由数字信息驱动的,但非数字特征具有显着影响,尤其是在开发早期。代表性相似性分析进一步强调,即使不需要执行任务,数字性和连续数量也是自发编码的,这表明数量是我们视觉环境的主要特征。 |
Speed estimation evaluation on the KITTI benchmark based on motion and monocular depth information Authors R bert Adrian Rill 在本技术报告中,我们使用基于现有技术的基于深度神经网络的光流和单视深度预测方法来研究KITTI基准上的自我车辆的速度估计。使用简单直观的方法并逼近单个比例因子,我们评估深度网络的几种应用方案,并制定有意义的结论,例如将深度信息与光流相结合,提高速度估算精度,而不是单独使用光流,深度神经质量网络方法影响速度估计性能使用深度和光流量较小的宽幅图像结果会降低性能。考虑到这些观察结果,我们使用单眼图像作为KITTI基准记录的输入,实现车速估计小于1 m s的RMSE。还讨论了限制和可能的未来方向。 |
A Short Note on the Kinetics-700 Human Action Dataset Authors Joao Carreira, Eric Noland, Chloe Hillier, Andrew Zisserman 我们将DeepMind Kinetics人类行为数据集的扩展从600个类扩展到700个类,其中每个类至少有600个来自不同YouTube视频的视频剪辑。本文详细介绍了此新版本数据集引入的更改,并包含一组全面的统计信息以及使用I3D神经网络体系结构的基线结果。 |
A Unified Deep Framework for Joint 3D Pose Estimation and Action Recognition from a Single RGB Camera Authors Huy Hieu Pham, Houssam Salmane, Louahdi Khoudour, Alain Crouzil, Pablo Zegers, Sergio A Velastin 我们提出了一种基于深度学习的多任务框架,用于从RGB视频序列进行联合3D人体姿态估计和动作识别。我们的方法分两个阶段进行。在第一个中,我们运行实时2D姿势检测器来确定身体重要关键点的精确像素位置。然后设计并训练双流神经网络以将检测到的2D关键点映射成3D姿势。在第二步中,我们部署了高效神经架构搜索ENAS算法,以找到最佳网络架构,该架构用于通过基于图像的中间表示和执行动作识别来对估计的3D姿势的时空演变进行建模。人类3.6M,MSR Action3D和SBU Kinect交互数据集的实验验证了所提方法对目标任务的有效性。此外,我们表明我们的方法需要较低的计算预算用于训练和推理。 |
+光学断层扫描Fused Detection of Retinal Biomarkers in OCT Volumes |