今日CS.CV 计算机视觉论文速览
Wed, 3 Jul 2019
Totally 49 papers
?上期速览✈更多精彩请移步主页
Interesting:
?DMT解耦的妆容迁移框架,研究人员提出了一种基于解耦的妆容迁移框架,将图像中的任务编码与妆容编码分别表示,随后利用不同的妆容编码与任务编码进行联合解码实现了妆容的渐变、插值、混合,人脸混合与多模态采样的等美妆任务。 (from 上交)
文中提出的方法,同时还引入了mask注意力机制:
学习到的嵌入空间表示,不同的妆有一个明显的聚类:
人脸妆容渐变与混合:
人脸插值与妆容编码随机采样:
最后还探索了隐空间编码(8-vector)每个维度对于妆容各方面的影响:
code:https://github.com/Honlan/DMT
?一种智能图像裁剪方法, 研究人员提出了一种淤血学习图像中主体构成的框架用于评价图像的美学质量。其中一个锚区域用于检测,并利用高斯核保证了图像中主体的完整性。随后馈入到一个轻量级的网络中,直接映射出最终的剪切结果。计算资源消耗较低。(from 北邮)
研究人员提出的显著性检验方法和美学区域回归器:
其中限制性检验的网络利用了类型四Unet的方法:
在不同数据集上的结果:
智能剪切的结果:
code:https://github.com/CVBase-Bupt/EndtoEndCroppingSystem
?提出了一种可以从单个或多个视角预测物体三维形状的模型, (from Stanford University Google Inc. Facebook AI Research)
?BMOD一个移动端的OCR数据集, 一个用于低质量光学字符识别的数据集,包含非均匀光照、模糊、噪声以及各种人工痕迹的缺陷。(from Brno University of Technology)
?Language2Pose将语言转换为位姿模拟动画的新方法,研究人员提出了Joint Language-toPose(JL2P) 的方法俩学习语言与动作的联合嵌入空间。(from CMU,Language Technologies Institute)
project:http://chahuja.com/language2pose/
?高铁 铁轨扣件的高速检测, (from 北邮)
基于faster-rcnn的方法:
Daily Computer Vision Papers
++HO-3D: A Multi-User, Multi-Object Dataset for Joint 3D Hand-Object Pose Estimation Authors Shreyas Hampali, Markus Oberweger, Mahdi Rad, Vincent Lepetit 我们提出了一种用于从彩色图像估计3D手对象姿态的新数据集,以及用于有效地注释该数据集的方法,以及基于该数据集的3D姿势预测方法。目前缺乏训练数据使得3D手对象姿势估计非常具有挑战性。这种缺乏是由于使用3D姿势标记许多真实图像以及生成具有各种真实交互的合成图像的复杂性。此外,即使合成图像可用于训练,仍需要带注释的真实图像进行验证。为了应对这一挑战,我们使用由单个RGB D相机组成的简单设置捕获序列。我们还使用彩色相机从侧视图对序列进行成像,但仅用于验证。我们介绍了一种基于全局优化的新方法,该方法利用深度,颜色和时间约束来有效地注释序列,我们用它来训练另一种新方法,该方法从单个彩色图像预测手部和物体的3D姿势。我们希望鼓励其他研究人员为我们的数据集开发更好的注释方法然后可以应用这种方法捕获并轻松注释用单个RGB D相机捕获的序列,以轻松创建额外的训练数据,从而解决3D手的主要问题之一物体姿态估计。 |
Obj-GloVe: Scene-Based Contextual Object Embedding Authors Canwen Xu, Zhenzhong Chen, Chenliang Li 最近,随着大规模图像数据集的普及,类之间的共现信息变得丰富,需要一种新的方式来利用它来促进推理。在本文中,我们提出了Obj GloVe,一种基于通用场景的常见视觉对象的上下文嵌入,我们采用嵌入方法GloVe来利用实体之间的共现。我们在预处理的Open Images V4数据集上训练嵌入,并通过降维和沿特定语义轴投影向量提供广泛的可视化和分析,并展示最常见对象的最近邻居。此外,我们揭示了Obj GloVe在物体检测和文本到图像合成方面的潜在应用,然后分别验证了它在这两种应用中的有效性。 |
+++Attribute-Driven Spontaneous Motion in Unpaired Image Translation Authors Ruizheng Wu, Xin Tao, Xiaodong Gu, Xiaoyong Shen, Jiaya Jia 当前的图像转换方法虽然对于在各种应用中产生高质量结果是有效的,但仍然没有考虑太多的几何变换。我们在本文中提出自发运动估计模块以及细化模块,以学习源域和目标域之间的属性驱动变形。广泛的实验和可视化证明了这些模块的有效性。我们在不成对的图像翻译任务中取得了可喜的成果,并以自发运动为基础实现了有趣的应用。 |
+++An End-to-End Neural Network for Image Cropping by Learning Composition from Aesthetic Photos Authors Peng Lu, Hao Zhang, Xujun Peng, Xiaofu Jin 作为图像编辑的基本技术之一,图像裁剪丢弃了不相关的内容,并且仍然是图像的令人愉悦的部分,以增强整体构图并实现更好的视觉美感。在本文中,我们主要关注提高自动图像裁剪的准确性,并进一步探索其在公共数据集中的高效潜力。从这个方面来说,我们提出了一个基于深度学习的框架,用于从具有高美学品质的照片中学习对象组合,其中通过具有高斯核的卷积神经网络CNN来检测锚区域以维持感兴趣的对象的完整性。然后将该初始检测到的锚定区域馈送到轻量级回归网络中以获得最终的裁剪结果。与传统方法不同,迭代地提出并评估多个候选者,在我们的模型中仅产生单个锚定区域,其直接映射到最终输出。因此,所提出的方法需要低计算资源。公共数据集的实验结果表明,裁剪的准确性和效率都达到了现有的性能水平。 |
Where are the Masks: Instance Segmentation with Image-level Supervision Authors Issam H. Laradji, David Vazquez, Mark Schmidt 实例分割的主要障碍是现有方法通常需要许多每像素标签才能有效。这些标签需要大量的人力,并且对于某些应用,这种标签不容易获得。为了解决这个限制,我们提出了一种新的框架,可以有效地训练图像级标签,这些标签的获取成本要低得多。例如,人们可以对汽车一词进行互联网搜索,并以最小的努力获得汽车所在的许多图像。我们的框架包括两个阶段1训练分类器以生成感兴趣对象的伪掩码2在这些伪掩码上训练完全受监督的掩码R CNN。我们的两个主要贡献是提出一个易于实现的管道,并且适用于不同的分割方法,并且为这个问题设置实现了新的最先进的结果。我们的结果是基于PASCAL VOC 2012评估我们的方法,PASCAL VOC 2012是弱监督方法的标准数据集,我们展示了与现有方法相比在平均精度方面的主要性能提升。 |
Improving Borderline Adulthood Facial Age Estimation through Ensemble Learning Authors Felix Anda, David Lillis, Aikaterini Kanta, Brett A. Becker, Elias Bou Harb, Nhien An Le Khac, Mark Scanlon 在成年和非成年之间的边界线上实现面部年龄估计的高性能一直是一个挑战。一些研究使用了从婴儿时代到老年人的不同方法,并且已经使用不同的数据集来测量1.47至8年范围内的平均绝对误差MAE。特别是在边界线中的算法的弱点一直是本文的动机。在我们的方法中,我们开发了一种集合技术,结合我们深度学习模型DS13K提高了未成年人估计的准确性,该模型已经在Deep Expectation DEX模型上进行了微调。对于16至17岁的年龄组,我们已经达到了68的准确度 |