今日CS.CV 计算机视觉论文速览
Tue, 30 Apr 2019
Totally 91 papers
?上期速览✈更多精彩请移步主页
Interesting:
?scGAN自拍照片卡通风格化, 研究人员提出了一种将自拍卡通化的风格化方法。利用注意力对抗网络强调脸部特征并忽视低层次细节信息。首先通过cycle架构来训练非配对数据,随后利用三个不同了loss来训练。其中全局变化loss用于强化边缘和肖像的内容特征、注意力循环损失用于强调面部精细结构、感知损失用于消除人工痕迹提高鲁棒性。。(from 京东研究院)
模型架构:
不同方法的比较:
不同风格的结果:
dataset:cartoon portraits dataset
包含了卡通、手绘、水彩图像。来自谷歌关键词搜索woman portrait
3524
?***TextCohesion检测任意形状的文字, 这种方法包含了五个关键部分,文字骨架和4个方向像素区域。其中文字骨架用于粗略定出文字的位置、形状大小,随后从四个方向来精调文字的区域和边缘。随后还利用了置信度分数来提出想文字的其他符号。在Total-Text and SCUT-CTW1500 上分别实现了84.6 and 86.3 的准确率。(from 浙大)
文本骨架用于提出假阳性,方向性像素用于更鲁棒的文字抽取:
不同数据集(SynthText [6] CDAR2019 [23] TotalText [2] CTW1500 [43] )及结果:
?用于弹性分布式计算的动态mini-batch SGD, 弹性分布式计算用于各种不同任务、不同需求的机器学习任务十分重要。但目前大规模minibatch用于弹性框架上会出现性能下降,主要来源于随机动量估计中的噪声随时间累计,并会在batchsize变化时出现之后效应。研究人员提出了随时间平滑调整学习率来减轻噪声动量估计的影响。这种动态SGD方法实现了从8GPUs到128GPUs稳定的表现。研究人员还提供了对于线性学习率优化和随机动量效应的理论分析。(from Amazon Web Services)
?移动端高速人脸识别, 研究人员观察到级联神经网络中最主要的瓶颈在于候选框提出阶段,所有图像金字塔都需要通过网络进行计算。所以研究人员通过全局和局部的特征来减小了图像金字塔的深度,从而实现了提速。(from 南加州大学 三星研究院)
全局用于处理face,局部用于处理脸部特征并推测出脸的位置。
速度:三星S8的CPU 1280*720,最小人脸100,scaling factor 0.25----8~10fps.
dataset:WIDER-face and FDDB
?DADA-2000, 基于驾驶员的注意力构建了注意力和事故标注的数据集,包含了来自54种不同事故2000个视频段中658476帧,包括了不同场景 (highway, urban, rural, and tunnel), 不同天气(sunny, rainy and snowy) 不同光照(daytime and nighttime)。同时构建了驾驶员的扫视路径和撞击图,以预测事故发生的前兆。(from 长安大学)
数据集中的事故分类关系:
ref:DR(eye)VE project and newly emerged Berkeley DeepDrive Attention (BDD-A) database
?IsMo-GAN,基于对抗学习从二维图像进行三维非刚体重建, 通过光照、相机位姿和阴影实现250Hz的重建(from 凯泽斯劳滕大学 DFKI 马普信息研究所)
2D图像输入(前景分离)后生成点云,随后判别器进行表面正则化。下半部分显示了在纹理不同情况下实现的三维重建效果。
三个部分的网络模型:
一些结果:
?**基于局部几何特征融合的三维刚体数据配准, 提出了一种同时融合低级和高级几何特征的3D刚体匹配方法。与先前利用线性操作不同的是,本文提出了更为紧致和具有可变性的表示,并可以通过神经网络在三重架构的欧式空间下进行优化。神经网络基于改进的三重损失函数进行训练,可以充分利用三重关系。这种描述子更为轻量化并具有旋转不变性。(from 华中科技)
模型架构和对应的NN模块结构如下:
损失示意图:
训练过程:
一些配准的结果:
dataset:U3M [23],U3OR [52, 53],BMR [6].Aug ICL-NUIM [55],SceneNN
Daily Computer Vision Papers
Style Transfer by Relaxed Optimal Transport and Self-Similarity Authors Nicholas Kolkin, Jason Salavon, Greg Shakhnarovich 样式转移算法努力使用另一种图像的样式呈现一个图像的内容。我们提出了基于松弛最优传输和自相似性的样式转移STROTSS,一种新的基于优化的样式转移算法。我们扩展我们的方法以允许用户指定点对点或区域到区域控制样式图像和输出之间的视觉相似性。这种指导可用于实现特定的视觉效果或纠正由无约束的样式转移所产生的错误。为了将我们的方法与先前的工作进行定量比较,我们进行了大规模的用户研究,旨在评估样式转移算法中各种设置的样式内容权衡。我们的结果表明,对于任何所需的内容保存水平,我们的方法提供比以前的工作更高质量的程式化。代码可在 |
Progressive Differentiable Architecture Search: Bridging the Depth Gap between Search and Evaluation Authors Xin Chen, Lingxi Xie, Jun Wu, Qi Tian 最近,可微分搜索方法在降低神经结构搜索的计算成本方面取得了重大进展。但是,这些方法通常报告在评估搜索的体系结构或将其传输到另一个数据集时的准确性较低。这可以说是由于搜索和评估方案中的架构深度之间存在巨大差距。在本文中,我们提出了一种有效的算法,它允许搜索的体系结构的深度在训练过程中逐渐增长。这带来了两个问题,即较重的计算开销和较弱的搜索稳定性,我们分别使用搜索空间近似和正则化来解决。通过在单个GPU上显着缩短7小时的搜索时间,我们的方法在代理数据集CIFAR10或CIFAR100以及目标数据集ImageNet上实现了最先进的性能。代码可在 |
End-to-end Cloud Segmentation in High-Resolution Multispectral Satellite Imagery Using Deep Learning Authors Giorgio Morales, Alejandro Ram rez, Joel Telles 由于卫星可以捕获的地理和云层种类繁多,因此在高分辨率卫星图像中分割云是一项艰巨而具有挑战性的任务。因此,它需要自动化和优化,特别是对于经常处理大量卫星图像的人,例如政府机构。在这个意义上,这项工作的贡献是双重的我们提出CloudPeru2数据集,包括22,400个512x512像素的图像及其各自的手绘云蒙版,以及使用卷积神经网络的云端对端分割方法的提议网络CNN基于Deeplab v3架构。测试集的结果准确度为96.62,精度为96.46,特异度为98.53,灵敏度为96.72,优于对比方法。 |
DeepHMap++: Combined Projection Grouping and Correspondence Learning for Full DoF Pose Estimation Authors Mingliang Fu, Weijia Zhou 近年来,用卷积神经网络CNN估计对象实例的6D姿势已经受到相当多的关注。根据是否使用中间线索,相关文献可大致分为两大类直接方法和两级管道。对于后者,在第一阶段由CNN回归中间线索,例如3D对象坐标,语义关键点或虚拟控制点而不是姿势参数。然后可以通过利用这些中间线索构造的对应约束来解决对象姿势。在本文中,我们专注于两阶段管道的后处理,并提出结合两个学习概念,用于在一侧的挑战性场景投影分组和另一方面的对应学习下估计对象姿势。我们首先采用基于局部补丁的方法来预测投影热图,其表示3D边界框角的投影的置信度分布。然后提出投影分组模块以从每层热图中去除冗余的局部最大值。不是直接将2D 3D对应馈送到透视n点PnP算法,而是从局部最大值及其对应邻域对多个对应假设进行采样并且由对应评估网络对其进行排序。最后,选择具有较高置信度的对应来确定对象姿势。对三个公共数据集的广泛实验表明,所提出的框架优于几种最先进的方法。 |
Solo or Ensemble? Choosing a CNN Architecture for Melanoma Classification Authors F bio Perez, Sandra Avila, Eduardo Valle 卷积神经网络CNN为计算机视觉提供了卓越的结果,包括医学图像分析。随着可用架构的数量不断增加,选择一个架构并不明显。现有技术表明,在执行转移学习时,ImageNet上的CNN架构的性能与它们在目标任务上的性能密切相关。我们在ISIC Challenge 2017数据集中创建的5组分组中评估了超过9种CNN结构的黑素瘤分类声明,以及3种重复测量,产生了135种模型。我们发现的相关性开始时比现有技术报道的相关性要小得多,并且当我们仅考虑表现最佳的网络不受控制的滋扰时,即完全消失,即分裂和随机性克服任何分析的因素。在可能的情况下,黑色素瘤分类的最佳方法仍然是创建多个模型的集合。我们比较了两种选择,用于选择哪些模型在高质量库中随机选取哪些模型,而使用验证集来确定首先选择哪些模型。对于小型合奏,我们发现第二种方法略有优势,但发现随机选择也具有竞争力。虽然我们在本文中的目的不是为了最大限度地提高性能,但我们很容易达到AUC,与2017年ISIC挑战赛的第一名相当。 |
A New Method for Atlanta World Frame Estimation Authors Yinlong Liu, Alois Knoll, Guang Chen 在本文中,我们通过考虑垂直方向和水平方向之间的关系,提出了一种新的亚特兰大帧估计方法。与以前的解决方案不同,我们的方法不能同时解决所有方向。相反,它按顺序估计方向。具体地说,我们的方法首先全局搜索mathbb S 2中的垂直方向,然后估计一维中的水平方向。因此,每个子问题的维数都很低,可以有效地解决。换句话说,随着水平方向的数量增加,我们的方法的运行时间不会大大增加。通过对合成数据和现实数据进行测试,验证了我们方法的优势。 |
Capturing human categorization of natural images at scale by combining deep networks and cognitive models Authors Ruairidh M. Battleday, Joshua C. Peterson, Thomas L. Griffiths 人类分类是心理学中认知建模最重要和最成功的目标之一,但数十年的竞争模型的开发和评估取决于一小组简单的人工实验刺激。在这里,我们将这种建模范式扩展到自然图像领域,揭示了刺激表征在分类中所起的关键作用及其对人们如何形成类别的结论的影响。将分类的心理模型应用于自然图像需要两个显着的进步。首先,我们进行了第一次人体分类的大规模实验研究,涉及来自10个非重叠对象类别的10,000个自然图像的超过500,000个人类分类判断。其次,我们通过探索当前有监督和无监督的深度和浅层机器学习方法的最佳方法,解决了在认知模型中表示高维图像的传统瓶颈。我们发现选择足够表达,数据驱动的表示对于捕获人类分类至关重要,并且使用这些表示允许表示具有抽象原型的类别的简单模型优于基于更复杂的基于记忆的分类示例,其在使用较少自然主义刺激的研究中占主导地位。 。 |
Deep Fitting Degree Scoring Network for Monocular 3D Object Detection Authors Lijie Liu, Jiwen Lu, Chunjing Xu, Qi Tian, Jie Zhou 在本文中,我们建议学习单眼三维物体检测的深度拟合度评分网络,旨在最终得出建议与对象之间的拟合度。与大多数使用严格约束来获得3D定位的单眼框架不同,我们的方法通过测量投影的3D建议与对象之间的视觉拟合程度来实现高精度定位。我们首先使用基于锚的方法回归对象的维度和方向,以便可以构建合适的3D提议。我们提出FQNet,它可以仅基于2D线索推断3D提议和对象之间的3D IoU。因此,在检测过程中,我们在3D空间中对大量候选进行采样,并将这些3D边界框单独投影到2D图像上。通过简单地以FQNet的输出3D IoU得分的形式探索提案和对象之间的空间重叠,可以挑选出最佳候选者。 KITTI数据集上的实验证明了我们框架的有效性。 |
DeLiO: Decoupled LiDAR Odometry Authors Queens Maria Thomas, Oliver Wasenm ller, Didier Stricker 大多数LiDAR测距算法通过以插入方式估计旋转和平移来估计两个连续帧之间的变换。在本文中,我们提出了解耦LiDAR测距仪DeLiO,它首次将旋转估计完全与平移估计解耦。特别地,通过从输入点云提取表面法线并在单位球上跟踪它们的特征图案来估计旋转。使用此旋转,点云未旋转,因此底层变换是纯粹的平移,可以使用线云方法轻松估算。对KITTI数据集进行评估,并将结果与现有技术算法进行比较。 |
PCA-RECT: An Energy-efficient Object Detection Approach for Event Cameras Authors Bharath Ramesh, Andres Ussa, Luca Della Vedova, Hong Yang, Garrick Orchard 我们提出了第一个基于事件的,基于事件的节能方法,用于使用事件相机进行物体检测和分类。与传统的基于帧的相机相比,选择事件相机导致微秒的高时间分辨率,低功耗几百mW和宽动态范围120dB作为吸引人的特性。然而,基于事件的对象识别系统在准确性方面远远落后于基于帧的对象。为此,本文提出了一种基于事件的特征提取方法,该方法通过在图像帧上累积局部活动然后将主成分分析PCA应用于归一化邻域来设计。随后,我们通过利用特征表示的低维度来提出用于有效特征匹配的回溯自由k d树机制。另外,所提出的k d树机制允许特征选择以在硬件资源被限制以实现维度减少时获得较低维度的字典表示。因此,所提出的系统可以在现场可编程门阵列FPGA器件上实现,从而导致高性能超过资源比。所提出的系统在用于对象分类的基于真实世界事件的数据集上进行测试,显示出优越的分类性能以及与现有技术算法的相关性。此外,我们在有限的训练数据和地面实况注释的非受控照明条件下,在实验室环境中验证了物体检测方法和实时FPGA性能。 |
Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition Authors Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, Qi Tian 最近,骨架数据的动作识别在计算机视觉中引起了很多关注。以前的研究主要基于固定的骨架图,仅捕获关节之间的局部物理依赖性,这可能会错过隐式关节相关性。为了捕获更丰富的依赖关系,我们引入了一种称为A链接推理模块的编码器解码器结构,以直接从动作捕获特定于行为的潜在依赖关系,即动作链接。我们还扩展现有的骨架图以表示更高阶的依赖性,即结构链接。将这两种类型的链接组合成广义骨架图,我们进一步提出动作结构图卷积网络AS GCN,其将动作结构图卷积和时间卷积堆叠为基本构建块,以学习用于动作识别的空间和时间特征。将未来的姿势预测头与识别头并行添加,以帮助通过自我监督捕获更详细的行动模式。我们使用两个骨架数据集NTU RGB D和Kinetics在动作识别中验证AS GCN。与现有技术方法相比,所提出的AS GCN实现了持续的大的改进。作为副产品,AS GCN还展示了未来姿势预测的有希望的结果。 |
MSDC-Net: Multi-Scale Dense and Contextual Networks for Automated Disparity Map for Stereo Matching Authors Zhibo Rao, Mingyi He, Yuchao Daia, Zhidong Zhua, Bo Lia, Renjie He 立体图像的视差预测对于计算机视觉应用是必不可少的,包括自动驾驶,3D模型重建和物体检测。为了预测准确的视差图,我们提出了一种新的深度学习架构,用于从一对称为MSDC Net的整流立体图像中检测视差图。我们的MSDC Net包含两个模块多尺度融合2D卷积和多尺度残差3D卷积模块。多尺度融合2D卷积模块利用潜在的多尺度特征,通过Dense Net提取和融合不同尺度特征。多尺度残差3D卷积模块从由多尺度融合2D卷积模块聚合的成本体积中学习不同尺度几何上下文。在Scene Flow和KITTI数据集上的实验结果表明,我们的MSDC Net明显优于非遮挡区域中的其他方法。 |
Th |