今日CS.CV 计算机视觉论文速览
Mon, 3 Jun 2019
Totally 54 papers
?上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Sketch2code: Generating a website from a paper mockup Authors Alex Robinson 开发面向用户的应用程序的早期阶段是创建一个线框来布局界面。一旦创建了线框,就会将其提供给开发人员以在代码中实现。开发锅炉板用户界面代码是一项耗时的工作,但仍需要有经验的开发人员。在本文中,我们提出了两种自动化这一过程的方法,一种是使用经典的计算机视觉技术,另一种是使用深层语义分割网络的新应用。我们发布了一个网站数据集,可用于培训和评估这些方法。此外,我们设计了一个新颖的评估框架,通过创建合成草图进行经验评估。我们的评估表明,我们的深度学习方法优于我们的经典计算机视觉方法,我们得出结论,深度学习是未来研究最有希望的方向。 |
Multimodal Joint Emotion and Game Context Recognition in League of Legends Livestreams Authors Charles Ringer, James Alfred Walker, Mihalis A. Nicolaou 视频游戏流向观众提供丰富的视听数据,通过游戏镜头和音频传达关于游戏本身的信息,以及通过网络摄像头镜头和音频的流光的情绪状态和行为。分析玩家行为并发现与游戏背景的相关性对于建模和理解直播的重要方面至关重要,但是会带来一系列重大挑战,例如融合不同传感器捕获的多模态数据,在野外条件下不受控制。首先,据我们所知,我们提供了英雄联盟直播的第一个数据集,注释了流光效果和游戏背景。其次,我们提出了一种利用张量分解进行多模态表示的高阶融合的方法。与一组基线融合方法(如晚期和早期融合)相比,所提出的方法在联合预测游戏背景和玩家影响的问题上进行了评估。 |
A Riemanian Approach to Blob Detection in Manifold-Valued Images Authors Aleksei Shestov, Mikhail Kumskov 本文致力于解决多值图像中的斑点检测问题。我们的解决方案基于blob响应函数的新定义。我们通过图像图的曲率来定义斑点响应函数,图像图被视为子流形。我们称之为提议的框架黎曼斑点检测。我们证明我们的方法可以被视为灰度斑点检测技术的一般化。通过图像Hessian导出了黎曼斑点响应函数的表达式。我们为2D表面上的矢量值图像的情况提供实验,所提出的框架在化学化合物分类的任务上进行测试。 |
Scene Text Visual Question Answering Authors Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Mar al Rusi ol, Ernest Valveny, C.V. Jawahar, Dimosthenis Karatzas 当前的视觉问题回答数据集不考虑图像中文本传达的丰富语义信息。在这项工作中,我们提出了一个新的数据集ST VQA,旨在强调利用图像中存在的高级语义信息作为VQA过程中的文本提示的重要性。我们使用该数据集来定义一系列增加难度的任务,其中在视觉信息提供的上下文中阅读场景文本是推理和生成适当答案所必需的。我们为这些任务提出了一个新的评估指标,以解决推理错误以及文本识别模块的缺点。此外,我们提出了一系列基线方法,为新发布的数据集提供了进一步的见解,并为进一步研究奠定了基础。 |
3DPalsyNet: A Facial Palsy Grading and Motion Recognition Framework using Fully 3D Convolutional Neural Networks Authors Gary Storey, Richard Jiang, Shelagh Keogh, Ahmed Bouridane, Chang Tsun Li 从视频序列执行面部分析的能力具有在许多生活领域中产生积极影响的巨大潜力。一个这样的领域涉及医学领域,特别有助于面神经麻痹患者的诊断和康复。考虑到这个应用程序,本文提出了一个名为3DPalsyNet的端到端框架,用于口腔运动识别和面部麻痹分级的任务。 3DPalsyNet利用具有ResNet骨干网的3D CNN架构来预测这些动态任务。利用从用于一般动作识别的动力学数据集预训练的3D CNN的转移学习,修改该模型以使用中心和softmax损失概念应用联合监督学习。 3DPalsyNet在由具有不同范围的面部麻痹和口腔运动的个体组成的测试集上进行评估,并且结果在这些任务分别为82和86中显示出有吸引力的分类准确度水平。根据所提出的3DPalsyNet的预测质量来研究帧持续时间和损失函数的影响,其中发现较短的帧持续时间s为8对于该特定任务执行最佳。中心损失和softmax在空间时间特征学习方面比单独的softmax损失有所改善,这与涉及空间领域的早期工作一致。 |
Deep Dual Relation Modeling for Egocentric Interaction Recognition Authors Haoxin Li, Yijun Cai, Wei Shi Zheng 以自我为中心的交互识别旨在识别相机佩戴者与以自我为中心的视频中面向相机佩戴者的交互者的交互。在这样的人类交互分析问题中,探索相机佩戴者和交互者之间的关系是至关重要的。然而,大多数现有作品直接模拟整个交互,并且缺乏对两个交互人之间关系的建模。为了利用强关系进行自我中心交互识别,我们引入了一种双关系建模框架,该框架学习基于两个人的个体动作表示来模拟相机佩戴者和交互者之间的关系。具体来说,我们开发了一个新颖的交互式LSTM模块,它是我们框架的关键组成部分,它基于各自的行动表示明确地模拟两个相互作用的人之间的关系,这些行动表示与交互者注意模块和全局本地运动模块协作学习。三个自我中心交互数据集的实验结果显示了我们的方法的有效性和优于现有技术的优势。 |
Provably scale-covariant hierarchical continuous networks based on scale-normalized differential expressions coupled in cascade Authors Tony Lindeberg 本文提出了一种构建连续分层网络的理论,使得网络保证可证明是规模协变的。我们首先提出了获得尺度协方差的一般充分性论证,该尺度协方差适用于由尺度归一化尺度空间导数表示的线性和非线性微分表达式定义的广泛类型的网络。然后,我们提供了一个更详细的发展,这个网络的一个例子是由数学推导的感受域模型和生物学启发的计算的组合构成的。基于一阶和二阶方向高斯导数的定向准正交组合的复杂单元的功能模型,我们在图像取向上的组合扩展中级联这种原始计算。分析了计算基元的尺度空间属性,并且我们给出了结果表示如何允许尺度和旋转协方差的明确证明。开发了纹理分析的原型应用程序,并且证明了所得QuasiQuadNet的简化平均缩减表示导致在三个纹理数据集上的有希望的实验结果。 |
Learning Robust Global Representations by Penalizing Local Predictive Power Authors Haohan Wang, Songwei Ge, Eric P. Xing, Zachary C. Lipton 尽管他们对i.i.d.具有着名的预测能力。众所周知,卷积神经网络更多地依赖于人类认为表面的高频模式,而不是低频模式,这些模式与关于什么构成类别成员资格的直觉更加一致。本文提出了一种训练鲁棒卷积网络的方法,该方法通过惩罚早期层学习的局部表示的预测能力。直观地说,我们的网络被迫丢弃预测信号,例如颜色和纹理,这些信号可以从局部感受野收集,并依赖于图像的全局结构。通过一系列合成和基准域适应任务,我们的方法可以在域外提供更好的泛化。此外,为了评估跨域转移,我们引入了ImageNet Sketch,这是一个由类似草图的图像组成的新数据集,它与类别和比例中的ImageNet分类验证集相匹配。 |
LeagueAI: Improving object detector performance and flexibility through automatically generated training data and domain randomization Authors Oliver Struckmeier 在本技术报告中,我介绍了用于对象检测的自动合成数据集生成方法,并在视频游戏“英雄联盟”中进行了演示。此报告还作为如何自动生成数据集的手册,并作为LeagueAI框架的数据集生成部分的介绍。 LeagueAI框架是一个软件框架,它根据人类玩家所拥有的相同输入,即视觉,提供有关游戏英雄联盟的详细信息。该框架允许研究人员和爱好者开发自己的智能代理或提取有关游戏状态的详细信息。机器视觉应用的一个大问题通常是收集大量手工标记数据的繁重工作。因此,本报告中介绍了LeagueAI框架的视觉管道的关键部分,即数据集生成。该方法涉及从游戏的3D模型中提取图像原始数据并将它们与游戏背景组合以创建类似合成图像的游戏并自动生成相应的标签。在实验中,我将在合成数据上训练的模型与在手工标记数据上训练的模型和在组合数据集上训练的模型进行比较。在合成数据上训练的模型显示出更多类别的更高检测精度和更可靠的玩家角色跟踪性能。由于旧手标记数据集和合成数据的格式不同,在组合数据集上训练的模型表现不佳。 |
High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks Authors Haohan Wang, Xindi Wu, Pengcheng Yin, Eric P. Xing 我们研究了图像数据的频谱与卷积神经网络CNN的泛化行为之间的关系。我们首先注意到CNN捕获图像的高频成分的能力。人体几乎察觉不到这些高频成分。因此,观察可以作为对抗性实例存在的解释之一,也可以帮助验证CNN在鲁棒性和准确性之间的权衡。我们的观察也立即导致可以改善训练有素的CNN的对抗强度的方法。最后,我们还利用这一观察设计了一种半黑盒子对抗攻击方法。 |
Dynamic Distribution Pruning for Efficient Network Architecture Search Authors Xiawu Zheng, Rongrong Ji, Lang Tang, Yan Wan, Baochang Zhang, Yongjian Wu, Yunsheng Wu, Ling Shao 通过Neural Architecture Search NAS获得的网络架构已经在各种计算机视觉任务中展示了最先进的性能。尽管取得了令人兴奋的进展,但是前向后向传播和搜索过程的计算复杂性使得在实践中难以应用NAS。特别是,大多数以前的方法需要数千个GPU天才能使搜索过程收敛。在本文中,我们提出了一种动态分布修剪方法,用于极其高效的NAS,它从联合分类分布中对架构进行采样。每隔几个时期动态地修剪搜索空间以更新该分布,并且当仅剩下一个结构时获得最佳神经结构。我们对NAS中两个广泛使用的数据集进行了实验。在CIFAR 10上,通过我们的方法获得的最佳结构实现了最先进的1.9测试错误,而在Tesla V100上搜索过程仅比原始NAS算法快1.5倍的GPU时间快1000倍。在ImageNet上,我们的模型在MobileNet设置下达到了75.2的前1精度,与最快的NAS算法相比,时间成本仅为2 GPU天,即100加速。该代码可在网址获取 |
Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering Authors Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim, Chang D. Yoo 本文提出了一种通过多任务学习获得多模态视频问答的额外监督方法。多模态视频问答是一项重要任务,旨在对视觉和语言的共同理解。然而,为多模态视频问答建立大规模数据集是昂贵的,并且现有基准相对较小以提供足够的监督。为了克服这一挑战,本文提出了一种多任务学习方法,它由三个主要组成部分组成:1个多模态视频问答网络,基于视频和字幕特征回答问题,2个时间检索网络预测时间。从中生成问题的视频剪 |