CVPR2017部分论文简介

本文综述了视频中运动物体检测与行为识别的研究进展,涵盖了多种算法和技术,包括基于深度学习的方法、光流计算、多任务学习等。重点介绍了不同算法的特点及其应用场景,如无人驾驶、视频目标检测跟踪等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文献概述研究内容数据集年份
运动物体检测内容
Learning Motion Patterns in Videos学习视频中的运动模式,建立运动模式网络输入图像光流图输出视频中运动的物体,即使相机是移动的运动相机检测运动物体DAVIS2017
Learning Features by Watching Objects Move我们在视频中使用无监督的基于模式的分割来获取片段,我们将其用作“伪地真相”来训练一个卷积网络从一个帧中分割对象运动物体检测
Optical Flow in Mostly Rigid Scenes自然场景的光流是观察者运动和物体独立运动的结合,现有的算法通常侧重于在纯静态世界或一般无约束场景的光流的假设下恢复运动和结构。此文章从外观和物理约束中对移动对象进行显式的分割,在静态区域,我们利用强大的约束条件,在多个帧上联合估计摄像机的运动和场景的三维结构。https://www.youtube.com/watch?v=N7a3AZEi-c4视频光流法估计运动物体KITTICVPR2017
MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving无人驾驶中的目标检测。提出了一种新的多任务学习系统,它结合了外观和运动提示,以更好地解释环境的语义,运动分割和车辆检测的联合训练有利于运动的分割。https://www.youtube.com/watch?v=hwP_oQeULfc视频运动分割,车辆检测KITTICVPR2017
Unsupervised Learning of Depth and Ego-Motion From Video基于视频的无监督深度和自运动学习。采用了无监督的方法针对视频数据进行训练,从而对单张图片的深度以及连续帧之间的车辆运动进行估计,可以对大量已知相机内参的视频数据进行训练,为 CNN 在自动驾驶领域的应用带来的新的启发。这篇论文用视频连续帧的不同视角的几何信息作为监督信号训练了一种端到端的单目图像深度估计和车辆运动估计的 framework。https://www.youtube.com/watch?v=HWu39YkGKvI视频自运动估计,无监督学习,运动车辆检测KITTICVPR2017
FusionSeg: Learning to Combine Motion and Appearance for Fully Automatic Segmentation of Generic Objects in Videos建立外观模和运动模式,并将两者相结合进行视频中运动物体检测运动物体检测CVPR2017
Fast Multi-Frame Stereo Scene Flow With Motion Segmentation使用运动场景流概念,本文的方法估计了来自立体对的密集视差和光流,这相当于立体的场景流估计。在摄像机运动的情况下将运动物体精确分割运动物体检测CVPR2017
Multi-View 3D Object Detection Network for Autonomous Driving本文针对自动驾驶场景中的高精度三维目标检测。我们提出了多视图三维网络(MV3D),这是一个传感器融合的框架,它将激光雷达点云和RGB图像作为输入,并预测面向三维的边界框。3D物体检测应用于自动驾驶CVPR2017
Deep Feature Flow for Video Recognition提出使用深层特征流进行视频识别视频处理方案,物体识别CVPR2017
Learning Video Object Segmentation From Static Images本文模型在每帧的基础上进行,在前一个帧的输出的指导下,指向下一帧的兴趣对象。文章证明,使用卷积神经网络(卷积神经网络)仅对静态图像进行训练,可以使视频中高度精确的对象分割。视频物体分割,视频处理方案CVPR2017
Learning to Segment Instances in Videos with Spatial Propagation Network通过空间传播网络学习视频中的片段实例。本文针对视频中多目标运动物体分割问题。主要关注视频中多实例分割的问题。具体来说,在第一帧中给定每个对象掩码,我们试图在整个视频序列中预测这个实例的片段。运动物体分割DAVISCVPR2017
Minimum Delay Moving Object Detection本文提出了一种基于表观运动的视频对象检测的一般框架和方法。运动物体检测
DeMoN: Depth and Motion Network for Learning Monocular Stereo在本文中,我们把运动的结构作为一个学习的问题。我们通过连续的、无约束的图像对来训练一个复杂的端到端的网络来计算深度和摄像机的运动,网络不仅估计了深度和运动,而且还估计了表面的法线,图像之间的光流和匹配的可信度。运动物体检测CVPR2017
Detecting Flying Objects using a Single Moving Camera使用单一运动相机检测飞行物体。本文要解决的问题是用一个运动的相机来检测飞行物体PAMI 2017
自动驾驶部分
Efficient Deep Models for Monocular Road Segmentation针对路面检测和分割问题,本文结合FCN 和 U-Net 提出一个网络 Up-Convolutional Networks,在速度和精度方面得到不错的效果道路分割,路面检测和分割问题KITTICVPR2017
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image给一张灰度图像,使用 多任务CNN网络 Deep MANTA 可以给出6个信息: region proposal, detection, 2D box regression, part localization, part visibility and 3D template prediction,此外,深层的MANTA网络能够定位车辆部件,即使这些部件是不可见的车辆定位KITTTCVPR2017
End-to-end Learning of Driving Models from Large-scale Video Datasets基于视觉的深度学习的自动驾驶实现模型。从Vision的角度通过深度学习实现自动驾驶,在路况复杂的环境中实现车道跟随及泛化自动驾驶的场景等https://www.youtube.com/watch?v=jxlNfUzbGAY自动驾驶KITTICVPR2017
DAVE: A Unified Framework for Fast Vehicle Detection and Annotation本文使用深度学习进行车辆检测和属性学习车辆检测KITTIECCV2016
光流法部分
Optical Flow with Semantic Segmentation and Localized Layers使用光流进行语义分割和定位,光流的变化依赖于物体类别,根据物体的类型,我们在这些区域内定义不同的图像运动模型. 我们利用静态语义场景分割的最新进展,将图像分割为不同类型的对象。https://www.youtube.com/watch?v=QwmBSTWgr_s视频光流法语义分割KITTICVPR2017
FlowNet: Learning Optical Flow with Convolutional NetworksCNN网络来计算光流,实现端对端训练,自己制作了个训练数据库 Flying Chairs光流计算CVPR2015
FlowNet: Learning Optical Flow with Convolutional Networks FlowNet2.0升级版光流计算CVPR2017
Robust Interpolation of Correspondences for Large Displacement Optical Flow对应的插值(EpicFlow)在最近的工程中被广泛应用于光流估计。它具有保护边缘和效率的优点。但在现代匹配技术中,输入匹配噪声是不可避免的。本文提出了一种鲁棒插值方法(称为RicFlow)来克服缺点。光流法EpicFlow升级版CVPR2017
Optical Flow Estimation Using a Spatial Pyramid Network我们通过将经典的空间金字塔式的公式与深度学习相结合来学习计算光流。光流法CVPR2017
InterpoNet, a Brain Inspired Neural Network for Optical Flow Dense Interpolation提出了一种基于完全卷积网络的数据驱动的基于多密度的插值算法。提出一种优于EpicFlow的光流法光流法KITTI
Optical Flow Requires Multiple Strategies (but only one network)使用单个神经网络获得光流光流法KITTI
行为监测部分
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image从单个图像自动估计三维人体姿态和形状行为识别ECCV2016 
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition视频中进行行为识别。Temporal Segment Network(TSN)--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习。利用TSN网络结构学习卷积神经网络在视频数据方面的处理。行为识别CVPR2017
What Will I Do Next? The Intention from Motion Experiment.根据视频运动预测接下来运动意图。意向预测:一种新的范例,在没有观察到的未来行动的情况下,进行未来行为预测。在同一类运动行为中,在外观上都是极其相似的,不管发生什么不同的结局。运动行为预测CVPR2017
Inferring Hidden Statuses and Actions in Video by Causal Reasoning通过因果推理推断视频中的隐藏状态和动作运动行为预测CVPR2017
Unsupervised Learning of Long-Term Motion Dynamics for Videos提出一种方法,通过预测原子三维流动的一系列基本运动来学习视频表示。然后从这个模型中提取学习的表示来识别活动。运动行为识别CVPR2017
On Human Motion Prediction Using Recurrent Neural Networks运动行为预测运动行为预测CVPR2017
Deep Representation Learning for Human Motion Prediction and Classification人类运动预测和分类的深层表征学习人体运动预测CVPR2017
Spatiotemporal Pyramid Network for Video Action Recognition双流卷积网络在视频动作识别任务中表现出很强的性能。关键思想是通过空间和时间上的卷积网络来学习时空特征。我们提出了一种新的时空金字塔网络,将其在金字塔结构中的空间和时间特征融合在一起,这样它们就可以互相加强视频动作识别CVPR2017
Spatiotemporal Multiplier Networks for Video Action Recognition本文提出了一种基于时空特征乘性交互的视频动作识别通用的卷积网络结构。我们的模型将两流建筑的外观和运动路径通过运动门结合起来,并进行了端到端的训练。动作识别CVPR2017
A Study of Vision based Human Motion Recognition and Analysis本文讨论了人体运动识别的应用、一般框架以及各组成部分的细节。动作识别CVPR2017
Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition With Convolutional Neural Networks使用场景流配合卷积神经网络进行行为识别行为识别CVPR2017
Asynchronous Temporal Fields for Action Recognition行为识别行为识别CVPR2017
SCC: Semantic Context Cascade for Efficient Action Detection在本文中,我们引入了一个语义级联上下文(SCC)模型,目的是在长视频序列中检测动作,通过接受与人类活动相关的语义优先级,SCC产生了高质量的类特定的行动建议,并以级联的方式删除了不相关的活动。行为识别CVPR2017
Surface Motion Capture Transfer With Gaussian Process Regression行为检测CVPR2017
物体检测部分
End-to-End Instance Segmentation with Recurrent Attention使用端到端的递归神经网络进行实例物体分割.本文针对实例分割使用递归神经网络(RNN)架构将每个物体依次定位分割出来,使用了一个注意机制模型类似人类的计算过程实例物体分割CVPPP, KITTI,
Cityscapes
CVPR2017
Detect to Track and Track to Detect视频目标检测跟踪,本文针对视频目标检测问题提出一个统一的框架同时完成检测和跟踪目标检测跟踪ImageNet videoCVPR2017
Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks使用深度神经网络检测并识别车牌。本文使用CNN网络来进行车牌检测和识别,一个网络完成端对端训练,检测和识别不用分离。车牌识别及检测CVPR2017
One-Shot Video Object Segmentation 视频物体分割。介绍了一种用于解决半监督视频对象分割问题的CNN架构,即对视频序列中所有像素的分类进行背景和前景的分类,并给出了一个(或多个)帧的人工注释。卷积神经网络DavisCVPR2017
BlitzNet: A Real-Time Deep Network for Scene Understanding 目标检测分割,场景理解目标检测分割,场景理解CVPR2017
Deep Feature Flow for Video Recognition用来视频物体识别的深度特征流https://www.youtube.com/watch?v=J0rMHE6ehGw视频视频中的物体检测CVPR2017
Flow-Guided Feature Aggregation for Video Object Detection视频中的物体检测CVPR2017
特征点匹配
GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence一种视频的快速搜索技术,比SIFT还厉害。基于网格的运动统计,用于快速、超鲁棒的特征匹配特征点匹配CVPR2017
监控视频处理
Surveillance Video Parsing With Single Frame Supervision监视视频解析,将视频帧分成多个标签,即脸,裤子,左腿,有广泛的应用。监控视频CVPR2017
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值