
视频目标检测
文章平均质量分 85
小菜鸡拉
这个作者很懒,什么都没留下…
展开
-
T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos
1 INTRODUCTION 近年来,随着新型深度卷积神经网络(CNN)[1],[2],[6],[7]和物体检测框架[3],[4],[5],[8]的成功,物体检测的性能得到显着提高。R-CNN [3]及其后继者[4],[5]等最先进的对象检测框架从区域提案中提取深度卷积特征,并将提案分类为不同的类别。DeepID-Net [8]通过引入box pre-training, casc原创 2017-06-05 15:31:54 · 15083 阅读 · 3 评论 -
Large-scale Video Classification with Convolutional Neural Networks
1. Introduction 图像和视频在互联网上变得无所不在,这鼓励了开发可以分析其语义内容的不同应用程序的算法,包括搜索和摘要。近来,卷积神经网络(CNN)[15]已经被证明是一种有效的模型,用于理解图像内容,为图像识别,分割,检测和检索提供了最先进的结果[11,3,2, 20,9,18]。这些结果背后的关键因素是将网络扩展到数千万个参数和可以支持学习过程的大量标签数据集的技原创 2017-06-06 10:07:21 · 1953 阅读 · 0 评论 -
Two-Stream Convolutional Networks for Action Recognition in Videos
1 Introduction 视频中人类行为识别是一项具有挑战性的任务,在研究界得到了极大关注[11,14,17,26]。与静态图像分类相比,视频的时间分量为识别提供了额外的(重要的)线索,因为可以基于运动信息可靠地识别多个动作。另外,视频为单一图像(视频帧)分类提供自然数据增强(抖动)。在这项工作中,我们的目标是扩展视频数据中的动作识别的深层卷积网络(ConvNets原创 2017-06-05 21:41:23 · 2708 阅读 · 5 评论 -
Learning Spatiotemporal Features with 3D Convolutional Networks
1. Introduction 互联网上的多媒体正在快速增长,导致每分钟共享越来越多的视频。为了打击信息爆炸,必须理解和分析这些视频,用于搜索,推荐,排名等各种用途。计算机视觉界一直在进行数十年的视频分析,解决了动作识别[26],异常事件检测[2]和活动理解[23]等不同的问题。通过采用不同的具体解决方案,在这些独立问题上取得了相当大的进展。然而,仍然需要一种通用视频描述符,有助于以原创 2017-06-07 09:34:54 · 4713 阅读 · 1 评论 -
Beyond Short Snippets: Deep Networks for Video Classification
1. Introduction卷积神经网络在静态图像识别问题上已被证明是非常成功的,如MNIST,CIFAR和ImageNet大型视觉识别挑战[15,21,28]。通过使用可训练的过滤器和特征池操作的层次结构,CNN能够自动学习视觉对象识别任务所需的复杂功能,从而实现手工制作功能的卓越性能。受到这些积极成果的鼓舞,最近已经提出了几种方法将CNN应用于视频和动作分类任务[2,13,14,19原创 2017-06-07 11:43:48 · 1487 阅读 · 1 评论 -
Delving Deeper into Convolutional Networks for Learning Video Representations
1 INTRODUCTION视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于手工制作和任务特定(Wang等人,2011; Sadanand&Corso,2012),设计一般视频表示的兴趣越来越大,可以帮助解决视频理解中的任务,如人类行为识别,视频检索或视频字幕(Tran et al。 ,2014)。二维卷积神经网络(CNN)已经在诸如分类或检测的静态图原创 2017-06-09 14:27:38 · 1704 阅读 · 0 评论 -
Unsupervised Learning of Video Representations using LSTMs
了解时间序列对于解决AI集中的许多问题很重要。最近,使用长时间记忆(LSTM)的复发神经网络架构(Hochreiter&Schmidhuber,1997)已成功地用于执行各种监督序列学习任务,如语音识别(Graves&Jaitly,2014),机器翻译(Sutskever等,2014; Cho等,2014)和图像的字幕生成(Vinyals等,2014)。它们也被应用于识别动作和产生自然原创 2017-06-09 15:51:37 · 1709 阅读 · 0 评论 -
3D Convolutional Neural Networks for Human Action Recognition
认识到现实世界环境中的人类行为,可以发现各种领域的应用,包括智能视频监控,客户属性和购物行为分析。 然而,由于混乱,准确地识别行动是一项非常具有挑战性的任务背景,闭塞和观点变化等[1],[2],[3],[4],[5],[6],[7],[8],[9],[10] [11]。目前的大多数方法[12],[13],[14],[15],[16]做出了某些假设(例如,小规模和观点变化)关于视原创 2017-06-07 14:26:56 · 2609 阅读 · 1 评论 -
Long-term Recurrent Convolutional Networks for Visual Recognition and Description
1 INTRODUCTION 图像和视频的识别和描述是计算机视觉的根本挑战。近年来,针对图像识别任务的监督卷积神经网络(CNN)模型已经取得了显着的进步,并且最近提出了一些对视频处理的扩展。理想情况下,视频模型应该允许对可变长度的输入序列进行处理,并且还提供可变长度的输出,包括生成 超出常规一对一预测任务 的全长句子描述。在本文中,我们提出了Long-term Recurren原创 2017-06-27 15:38:25 · 1317 阅读 · 0 评论