
论文笔记
潇湘_AQ
一颗慢慢成长的小草...
展开
-
论文笔记 HED:Holistically-Nested Edge Detection
同组小伙伴推荐的文章,一篇看似做边缘检测,实际做出了语义分割的文章,ICCV2015的文章。主要解决两个问题:(1)基于整个图像的训练和预测;(2)多尺度和多水平的特征学习。该算法通过深度学习模型,完成了从图像到图像的预测,并通过学习到的丰富的分级特征,完成边缘检测中的细节问题。本文提出的end-to-end的边缘检测系统,称为holistically-nested edge detectio原创 2016-10-11 10:56:36 · 32423 阅读 · 24 评论 -
论文精读 Learning to Segment Object Candidates(二)
Facebook AI Research 的文章,刚刚开源到github,代码: https://github.com/facebookresearch/deepmask 。其开源代码主要来自于两篇文章,想学习一下这个代码,还是先把出处的两篇文章看完吧。接上文(一),该论文的主要思想是将deep-network结构的segmentation与object detection结合,其实验原创 2016-08-28 10:23:51 · 3033 阅读 · 1 评论 -
论文精读 Learning to Segment Object Candidates(一)
Facebook AI Research 的文章,刚刚开源到github。其开源代码主要来自于两篇文章,想学习一下这个代码,还是先把出处的两篇文章看完吧。 经典的目标检测系统主要包括两个部分:提取proposal、将每一个候选proposal输入进行目标分类。本文则提出另一种思路:基于discriminative convolutional network的方法。该模型将两个部分进行合原创 2016-08-27 16:21:19 · 5357 阅读 · 6 评论 -
文献笔记 You Only Look Once:Unified, Real-Time Object Detection
2016_CVPR 文章:You Only Look Once:Unified, Real-Time Object Detection作为深度学习大神 rbg 的又一篇 2016CVPR 论文,迫不及待地学习了,与大家分享1、思路 Overview of YOLORecentapproaches like R-CNN :YOLO detection:A原创 2016-05-11 10:21:09 · 2447 阅读 · 1 评论 -
论文笔记 Fast R-CNN细节
当我决心认真地看Faster R-CNN代码的时候,我就觉得有必要把 Fast R-CNN的论文的细节再从新完整地看一遍了。对,是细节,如何实现的部分,于是有了此篇博客。请注意是 Fast R-CNN笔记。原创 2016-10-15 17:55:13 · 1935 阅读 · 0 评论 -
论文笔记 R-FCN: Object Detection via Region-based Fully Convolutional Networks
这篇论文主要采用“位置敏感度图”的方法,将FCN 网络引入到目标检测中来,将图像分类和目标检测很好地结合。因此这种方法可以和很多FCN中的图像分类框架结合,比如ResNets等,使其应用到目标检测中来。本文实验了101层的ResNet在VOC数据下结果,取得了mAP 83.6%和 速度 170ms一张图的结果(速度比Faster RCNN快)。原创 2016-11-21 10:03:03 · 4684 阅读 · 0 评论 -
论文笔记 OHEM: Training Region-based Object Detectors with Online Hard Example Mining
CVPR2016的文章,CMU与rbg大神的合作。原谅我一直没有对这篇文章做一个笔记~~文章提出了一种通过online hard example mining(OHEM)算法训练基于区域的卷积检测算子的高效目标检测算法,能够对简单样本和一些小数量样本进行抑制,使得训练过程更加高效。该方法利用显著的bootstrapping技术(SVM中被普遍利用),对SGD算法进行一定的修改,使得原有的reg原创 2016-10-08 22:23:11 · 26741 阅读 · 0 评论 -
论文笔记 FCN: Fully Convolutional Networks for Semantic Segmentation
很早的一篇文章了,CVPR2015的一个亮点,看过几次了,今天决定mark一下。文章使用全卷积网络,进行端到端的,像素到像素的训练,得到了很好的语义分割结果。原创 2016-11-23 18:19:09 · 3116 阅读 · 1 评论 -
论文笔记TLD:Tracking-Learning-Detection
本文主要解决未知目标在视频流中的跟踪问题,跟踪结果通过目标在单帧中的定位表示。重点提出了TLD的框架和P-N学习的方法(P-N learning方法:P-expert估计漏掉的检测结果;N-expert消除错检结果)。原创 2017-02-23 16:38:46 · 3949 阅读 · 0 评论 -
论文笔记:Label Refinement Network for Coarse-to-Fine Semantic Segmentation
本文设计了一个Coarse-to-Fine的深度学习网络Label Refinement Network,来进行语义分割任务。主要将低分辨率下的分割标签和卷积后的特征进行结合,获得一个更加精确的分割结果。在网络的多个阶段定义loss函数,这种做法起到了多阶段同时监督的效果。论文传送:Label Refinement Network for Coarse-to-Fine Semantic Seg原创 2017-03-12 11:52:44 · 5126 阅读 · 0 评论 -
论文笔记:Deep Image Matting
这是一篇非常有意思的介绍利用深度学习进行抠图的文章。文章传送:Deep Image Matting文章 。文章提出的方法在抠图alphamatting.com比赛中,排名第一。文章提出的算法主要分为两个部分:第一部分通过深度卷积的encoder-decoder网络,输入图像和图片对应的一个trimap,来预测图像的alpha matte(蒙板),第二部分用小型卷积网络对第一部分得到的蒙板进行微原创 2017-03-15 19:08:42 · 13895 阅读 · 3 评论 -
论文精读 Learning to Refine Object Segments
同样是Facebook AI Research的文章,是2016年7月新出的文章。下面我们来看一下。 简介与思想:目标分割主要要求目标级别的信息+像素级别的信息。但是对于前馈网络来说,卷积网络中下层获取了大量的空间信息,而顶层主要由目标水平的信息组成,在姿势和外形变化时不能达到很好的效果。本文主要提出一种自上而下的refinement方法来增强前馈网络以更好分割的方法。该方法与Deep原创 2016-08-29 15:14:51 · 6608 阅读 · 0 评论 -
论文笔记 A MultiPath Network for Object Detection
Facebook一起开源的3个程序之一,MultiPath,其代码网址:https://github.com/facebookresearch/multipathnet。文章简介:这篇文章对于COCO数据集中的小目标难检测问题,主要在Fast RCNN detector的基础上进行了改进,获得了新的detector:MultiPath detector。思想上改进如下:(1)在原创 2016-08-31 19:48:31 · 2066 阅读 · 0 评论 -
论文笔记 STCT: Sequentially Training Convolutional Networks for Visual Tracking
对于deep CNN网络的应用,在训练数据的数目有限时,往往在大数据集上预训练再在目标任务中微调的方法进行解决。但是在在线视觉跟踪问题(online visual tracking)中,有ground truth 标签的训练数据仅仅在第一帧中,通过在后续序列视频中更新tracker得到跟踪结果,因此,数据太少,用一个预训练模型进行微调的方法太容易产生过拟合。本文因而提出sequential tra原创 2016-09-01 09:36:30 · 3781 阅读 · 4 评论 -
论文笔记 A Large Contextual Dataset for Classification,Detection and Counting of Cars with Deep Learning
ECCV 2016的文章,首先建立了一个从上到下照的车辆影像数据集(即鸟瞰视角),并提出ResCeption神经网络进行训练,进一步建立residual learning with Inception-style layers,进行车辆数目的计算。该方法为车辆数目的计算的一种新方式:通过定位和密度估计方法。原创 2016-09-28 22:52:57 · 1577 阅读 · 1 评论 -
论文笔记 DenseCap: Fully Convolutional Localization Networks for Dense Captioning
李飞飞组的文章,是一篇很有意思的文章,主要介绍了一种CNN解决密集字幕任务的方法。密集字幕任务主要含两个方面: (1)单个单词描述的目标检测任务;(2)对整个图像的一个预测区域的字幕标注任务。原创 2016-09-26 21:55:56 · 3875 阅读 · 0 评论 -
论文笔记 G-CNN: an Iterative Grid Based Object Detector
为了目标检测精度和速度的进一步提高,在CVPR2016上各种算法可谓各显神通。今天要说的G-CNN就和YOLO算法类似,着重于速度的提升进行检测算子的改进。而与YOLO不同的是,改算法着眼于初始化proposal数量的减少,使得数以万计的proposal变成极少的初始格网,通过后面不停迭代获得最终较为准确的bbox。原创 2016-09-25 22:52:06 · 5169 阅读 · 4 评论 -
论文笔记 HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection
提出的HyperNet网络基于设计的Hyper特征,这种特征主要先集合分等级的特征图,然后将其压缩到一个空间。这种Hyper特征同时具有足够深和很好的语义信息,在PASCAL VOC 2007和2012上可以通过每张图产生仅仅100个proposal,而达到很好的精度和效果,同时可以达到实时,GPU下 5 fps的速度。Hyper方法主要的贡献有: (1)在仅仅 50 proposal情况下,可达原创 2016-09-21 22:34:10 · 5206 阅读 · 4 评论 -
论文笔记 SSD: Single Shot MultiBox Detector
话不多说开始总结,作为新一个快速高效的目标检测算法,SSD结合了Faster RCNN和YOLO 算法。本文主要提出的贡献有以下几点:(1)提出SSD算法,比YOLO算法更加迅速,同时和速度较慢的运行region proposal与pooling的算法的精度一样好(包括faster R-CNN) (2)SSD算法的核心是通过使用在特征图上的小卷积滤波器,来预测类别置信度和一系列有误差的boundi原创 2016-09-19 22:27:26 · 8427 阅读 · 4 评论 -
论文笔记 UberNet : Training a ‘Universal’ Convolutional Neural Network
UberNet : Training a ‘Universal’ Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory这是一篇很有意思的文章,将CNN的许多用途一起结合训练一个网络进行,实现CNN的:boundary det原创 2016-09-11 22:39:41 · 4937 阅读 · 1 评论 -
论文笔记 You Only Look Once: Unified, Real-Time Object Detection
今天注意到同组小伙伴写的YOLO的笔记,十分详细,内容丰富,特地和他说了后转载,留着自己也学习一下。相比我之前介绍的YOLO笔记,他的介绍更适合仔细学习,而我原来的适合整体了解。同时,许多训练时的情况的加入,也便于大家的交流学习。原博客地址:http://blog.youkuaiyun.com/u010167269/article/details/52457723 欢迎大家和他或者和我交流~Prefa转载 2016-09-09 22:19:26 · 4217 阅读 · 0 评论 -
论文笔记 MSCNN:A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
最新看到的一篇关于多尺度下快速目标检测的论文,大概得浏览了一下,是UCSD大学的SVCL实验室和IBM研究院一起研究的结果。其代码已经开源到GitHub,链接为:https://github.com/zhaoweicai/mscnn这篇文章主要解决多尺度同时存在时的检索问题,设计了MSCNN网络,提出了两点创新:(1)针对多尺度问题: 类似于FCNT跟踪方法,该文章也是观察原创 2016-09-06 21:32:24 · 11251 阅读 · 2 评论 -
论文笔记 Hierarchical Convolutional Features for Visual Tracking
同样是ICCV 2015的文章,并且与上一篇介绍的FCNT方法不谋而合,都提到了VGG网络不同卷积层提取到的特征类型的不同。理论基础:低层网络包含更高空间分辨率的低维视觉信息,可以用于精确的定位,类似于Gabor滤波器;而高层网络获取到更多语义类别信息,相对空间信息少。本文利用高层的语义信息来处理目标外形的变化问题,同时用低层信息进行精准定位。算法结构:(1)首原创 2016-09-05 22:41:26 · 4074 阅读 · 1 评论 -
论文笔记 Visual Tracking with Fully Convolutional Networks
看了这波作者的第二篇文章,不知不觉还是想看看他们的第一篇,ICCV2015的文章。原创 2016-09-04 21:47:09 · 2779 阅读 · 1 评论 -
论文笔记:MDPTracking,Learning to Track: Online Multi-Object Tracking by Decision Making
在TLD(Tracking-by -Detection)算法中,多目标跟踪问题里用之前的跟踪目标学习到的特征,直接对新的视频进行跟踪,一直是一个巨大的难点。本文作者将在线的多目标跟踪问题规划成一个Markov Decision Processes(MDP)中的决策,将每一个目标建立一个MDP模型,来进行解决。在MDP中,学习一个policy主要涉及学习相似数据的关联性,policy learn原创 2017-07-12 16:07:25 · 7015 阅读 · 0 评论