CVPR2018 paper list

本文概述了CVPR2018中三篇代表性论文:一种结合运动信息与语义对象检测的跟踪方法;一种适用于边缘计算的轻量级人体检测CNN;一种多级对象检测框架Cascade R-CNN,旨在提升检测精度。

CVPR2018 paper list

 

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

MV-YOLO:通过语义对象检测的运动矢量辅助跟踪

抽象对象跟踪是许多可视化分析系统的基石。近年来,虽然在这方面取得了相当大的进展,但在实际视频中进行稳健,高效,准确的跟踪仍然是一项挑战。在本文中,我们提出了一种混合跟踪器,它利用来自压缩视频流的运动信息和作用于解码帧的通用语义对象检测器来构建快速有效的跟踪引擎。所提出的方法与OTB追踪数据集上的几个众所周知的最近追踪器进行比较。结果表明所提出的方法在速度和/或准确性方面的优点。所提出的方法的其他所需特征是其简单性和部署效率,这是因为它由于其他原因而重用系统中可能已经存在的资源和信息。

 

 

Real-Time Human Detection as an Edge Service Enabled by a Lightweight CNN

实时人体检测作为轻量级CNN实现的边缘服务

摘要 - 边缘计算允许在网络边缘的分散节点上执行更多计算任务。今天,许多对延迟敏感的关键任务应用程序可以利用这些边缘设备来缩短时间延迟,甚至可以通过现场存在实现实时的在线决策制定。智能监控中的人体检测,行为识别和预测属于这一类别,在这种情况下,大量视频流数据的转换会花费宝贵的时间,并给通信网络带来沉重的压力。人们普遍认为,视频处理和对象检测是计算密集型且太昂贵而无法由资源有限的边缘设备处理。受深度可分卷积和单发多盒检测器(SSD)的启发,本文介绍了一种轻量级的卷积神经网络(L-CNN)。通过缩小分类器的搜索空间以专注于监视视频帧中的人体对象,所提出的LCNN算法能够以对于边缘设备而言负担得起的计算工作量检测行人。原型已经在使用openCV库的边缘节点(Raspberry PI 3)上实现,使用真实世界的监控视频流可以获得令人满意的性能。实验研究验证了L-CNN的设计,并表明它是在边缘计算密集型应用的有前途的方法。

在本文中,利用Depthwise Separable卷积网络,引入了一个轻量级的CNN,用于在边缘进行人体物体检测。该模型使用包含感兴趣对象的协调的ImageNet和VOC07数据集的部分进行训练。在实验测试中,L-CNN的最大值为2.03,平均值为1.79 FPS,这与Haar Cascaded算法非常快,并且误报率为6.6%。这证实了L-CNN在精确监测任务方面具有良好的准确性和合理的处理速度。此外,通过一些更具挑战性的实验场景,它表明,L-CNN可以处理复杂的情况,其中人的对象不完全在框架中。

 

Cascade R-CNN: Delving into High Quality Object Detection

级联R-CNN:深入高品质对象检测

在对象检测中,需要通过联合(IoU)阈值的交集才能定义正数和负数。用低IoU阈值进行训练的物体检测器,例如, 0.5,通常会产生嘈杂的检测结果。但是,随着IoU阈值的提高,检测性能会降低。造成这种情况的原因有两个:1)由于指数消失的正样本,训练期间过度训练,以及2)检测器最优的输入假设与输入假设的输入假设之间的推理时间不匹配。提出了多级对象检测体系结构Cascade R-CNN来解决这些问题。它由一系列随着IoU阈值增加而训练的检测器组成,以对接近的假阳性依次更具选择性。探测器逐步进行培训,利用观测器的输出是一个良好的分布来训练下一个更高质量的探测器。对逐渐改进的假设进行重采样可以保证所有检测器都有一组正确的等效大小的例子,从而减少过度配合问题。在推断中应用相同的级联程序,使得假设和每个阶段的检测器质量之间更接近匹配。示出了级联R-CNN的简单实现超过具有挑战性的COCO数据集上的所有单模型对象检测器。实验还表明,级联R-CNN可广泛应用于不同的检测器架构,获得与基准检测器强度无关的一致增益。该代码可在https://github.com/zhaoweicai/cascade-rcnn上获得。

在本文中,我们提出了一个多级目标检测框架Cascade R-CNN,用于设计高质量的物体探测器。该架构被证明可以避免训练过度和训练质量不匹配的问题。 Cascade R-CNN在具有挑战性的COCO和流行的PASCAL VOC数据集上的稳固一致的检测改进表明,需要对各种并发因素进行建模和理解,以推进对象检测。该级联RCNN被证明适用于许多对象检测体系结构。我们相信它可能对许多未来的目标检测研究工作有用。

CVPR2018的oral论文合集。 包含以下论文: A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem.pdf Accurate and Diverse Sampling of Sequences based on a “Best of Many” Sample Objective .pdf Actor and Action Video Segmentation from a Sentence .pdf An Analysis of Scale Invariance in Object Detection - SNIP .pdf Analytic Expressions for Probabilistic Moments of PL-DNN with Gaussian Input.pdf Are You Talking to Me_ Reasoned Visual Dialog Generation through Adversarial Learning .pdf Augmented Skeleton Space Transfer for Depth-based Hand Pose Estimation .pdf Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering .pdf CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM .pdf Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation.pdf Context Encoding for Semantic Segmentation.pdf Convolutional Neural Networks with Alternately Updated Clique .pdf Deep Layer Aggregation.pdf Deep Learning of Graph Matching.pdf DensePose Multi-Person Dense Human Pose Estimation In The Wild.pdf Density Adaptive Point Set Registration.pdf Detail-Preserving Pooling in Deep Networks.pdf Direction-aware Spatial Context Features for Shadow Detection .pdf Discriminative Learning of Latent Features for Zero-Shot Recognition .pdf DoubleFusion_Real-time Capture of Human Performance with Inner Body Shape from a Single Depth Sensor.pdf Efficient Optimization for Rank-based Loss Functions .pdf Egocentric Activity Recognition on a Budget .pdf Fast and Furious_Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net.pdf Feature Space Transfer for Data Augmentation.pdf Finding It”_ Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video” .pdf Finding Tiny Faces in the Wild with Generative Adversarial Network.pdf FlipDial_A Generative Model for Two-Way Visual Dialogue .pdf Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification .pdf High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs .pdf Hybrid Camera Pose Estimation .pdf Illuminant Spectra-based Source Separation Using Flash Photography .pdf Im2Flow_Motion Hallucination from Static Images for Action Recognition .pdf Im2Pano3D_Extrapolating 360 Structure and Semantics Beyond the Field of View .pdf Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering .pdf Learning Face Age Progression_A Pyramid Architecture of GANs .pdf Learning to Find Good Correspondences .pdf Left-Right Comparative Recurrent Model for Stereo Matching .pdf MapNet_An Allocentric Spatial Memory for Mapping Environments.pdf Maximum Classifier Discrepancy for Unsupervised Domain Adaptation .pdf Neural Kinematic Networks for Unsupervised Motion Retargetting.pdf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值