- 博客(13)
- 收藏
- 关注
原创 Video Object Detection with an Aligned Spatial-Temporal Memory
主要贡献:提出了一个新的时空记忆网络(STMN)用于视频目标检测。将预先训练好的图像分类权重集成到memory和网络内对齐模块中,该模块在时间上对memory进行空间对齐Towards high performance for video object detection和fgfa只能在固定数量的小帧上进行聚合信息,本文的方法可以在长的可变的帧上面进行信息聚合。只需要计算一个帧级的空间memor...
2019-07-18 16:04:36
1030
原创 towards high performance video object detection for mobiles
Abstract:之前的视频目标检测算法结构复杂仍然不适合在手机上运行。本文提出了一个轻量级网络结构用于在手机上进行视频目标检测。ligh flow 一个很小的网络,用于在帧之间构建联系。a flow-guided GRU模块用来在关键帧上提取特征。非关键帧的特征用关键帧的特征进行传播。整个网络是端到端训练的,获得了60.2%mAP,25.6fps(HuaWei Mate 8)模型结构 fo...
2019-07-16 20:33:35
466
原创 YOLOv2
YOLO的缺点:1.定位不准确 2.召回率低 YOLOv2对此进行了修改1.Batch Normalization对网络的每一层的输入都做归一化,收敛会快一点,原来的YOLO算法没有BN层,YOLOv2在每个卷积层都添加了BN层,并且将dropout去掉,可以提升2%的mAP2.High Resolution Classifier一般都是用预训练的网络来finetuning自己的网络,而且...
2019-07-12 10:29:47
765
原创 YOLO
理念:将输入的图片分割成SS网格,然后每个单元格负责检测中心点落在该单元格的目标。,每个单元格预测B个边界框以及边界框的置信度。置信度=Pr(object)是否有目标IOU。如果有目标Pr(Object)=1,否则为0,边界框的位置用(x,y,w,h)来表示,中心坐标的预测值(x,y)是相对于每个单元格左上角坐标的偏移,w,h是相对于整个图片的宽与高的比例,因此四个值应该都在(0,1)之间分类...
2019-07-10 16:14:27
396
原创 towards high performance video detection
Xizhou Zhu∗, Jifeng Dai,Lu Yuan,Yichen Wei,et.al Towards High Performance Video Object Detection// IEEE Conference on Computer Vision & Pattern Recognition. 2018该论文在DFF和FGFA的基础上进行了三点改进,DFF专注于速度...
2019-06-25 19:28:51
220
原创 Objects as Points 解读
Objects asPoints 2019 Xingyi Zhou, Dequan Wang, Philipp Krahenb ¨uhl我们在对象的边界框中心用一个点表示对象(参见图2),然后直接从中心位置的图像特征返回其他属性,如对象大小、尺寸、3D范围、方向和姿态。目标检测是一个标准的关键点估计问题。将图像输入到一个完全卷积网络中生成一个热图,热图的峰值对应对象的中心。每个峰值的图像特征预...
2019-06-14 19:06:22
3461
原创 16. Optimizing Video Object Detection via a Scale-Time Lattice解读
Optimizing Video Object Detection via a Scale-Time Lattice Kai Chen1 Jiaqi Wang1 Shuo Yang1 CVPR2018视频类目标检测相关工作:在VID挑战引入ImageNet之前,很少研究视频目标检测。后来Han等人提出Seq-NMS建立高置信度边界框序列并且将框重新评分为平均或者最大置信度。这个方阿飞你属于后期...
2019-06-14 18:54:44
784
原创 Towards High Performance Video Object Detection解读
Towards High Performance Video Object Detection Xizhou Zhu∗ Jifeng Dai Lu Yuan Yichen Wei CVPR2018在DFF和FGFA基础上进行了三点改进,在速度和精度上进行了权衡。DFF专注于提高速度,FGFA专注于精度,本文将两者优势结合起来。(1)特征的稀疏递归聚合FGFA是在每一帧上进行特征聚合,而在...
2019-06-14 18:50:49
1172
原创 R-FCN
伪代码feature maps=process(image)ROIs=region_proposal(feature maps)score_maps=compute_score_map(feature_maps)for ROI in ROIsV=region_roi_pool(score_maps,ROI)class_scores,box=average(V)class_probai...
2019-06-14 18:39:06
222
原创 bounding box regression
P是原始的proposal,G是ground truth G帽是P经过映射后得到的与G相近的框输入是CNN的特征,也就是R-CNN中pool5 feature输出而由ground truth和proposal计算得到的真正需要的平移量和尺度变化应该为:所以目标函数为:w是要学习的参数,d(p)是得到的预测值,希望预测值和t*差距最小,损失函数为:函数优化目标为:...
2019-06-14 18:30:37
116
原创 Fast R-CNN
Fast R-CNN是对R-CNN的一个改进。R-CNN产生非常多的region proposal,每一个建议框都送入到CNN中,计算量非常大。Fast R-CNN提出直接用特征图代替原图来检测目标。直接使用特征图计算ROI。采用VGG16中的卷积层Con5生成ROI。再使用Roi池化将ROI转化为固定的大小,送入到全连接层进行分类和定位。R-CNN最后使用的是SVM进行分类,Fast R-C...
2019-06-14 16:51:16
120
原创 Faster R-CNN
在Fast R-CNN基础上进行了再一次改进取代之前的候选区域算法,用RPN生成ROI后面的结构和Fast R-CNN一样。RPNRPN的输入:Faster R-CNN的公共特征图在特征图上用一个33的滑动窗口,相当于做了一个33的卷积操作。使用ZF网络构造与类别无关的候选区域。ZF网络自u后输出256个值,它们被送入到两个独立的全连接层以预测边界框和两个objectnetss分数。...
2019-06-14 16:50:49
200
原创 RCNN
这里写自定义目录标题目录R-CNN目录R-CNN自从Alexnet获得2012年 ILSVRC 2012冠军后,用CNN进行分类成为主流。原始的用于目标检测的暴力方法是从左到右,从上到下滑动窗口,利用分类识别目标。为了在不同观察距离处检测不同的目标类型,需要使用不同大小和宽高比的窗口。R-CNN提出了选择性搜索,用候选区域方法创建目标检测的ROI。首先将每个像素作为一组,然后计算每组的纹...
2019-06-14 16:50:38
206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人