极简笔记 DeepID-Net: Object Detection with Deformable Part Based Convolutional Neural Networks

最新推荐文章于 2024-08-18 10:23:17 发布

原创

最新推荐文章于 2024-08-18 10:23:17 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了将Deformable Part Model (DPM)与卷积神经网络(CNN)结合的DeepID-Net，用于目标检测。通过改进预训练设置和引入def-pooling layer，提升检测性能，利用全局上下文信息增强定位准确性。

极简笔记 DeepID-Net: Object Detection with Deformable Part Based Convolutional Neural Networks

论文地址 http://www.ee.cuhk.edu.hk/~xgwang/papers/ouyangZWpami16.pdf

这是CUHK王晓刚组2017年的一篇TPAMI，最早发在CVPR2015，增加实验之后投到的期刊，所以对比实验都是些AlexNet，GoogLeNet等早期网络模型，faster-rcnn也还没有出现。选读这篇文章是因为想看看Deformable Part Method（DPM）如何和CNN结合。

文章核心贡献：1. 新的目标检测的网络架构；2. 修改了pretrain的设置，提升了性能；3. 把DPM和CNN结合起来的def-pooling layer取代max-pooling layer。pipeline见图

作者认为在做检测时候，单单对框框中的物体进行分类会有困难，比如只框出一个小小的排球，可能会和游泳运动员戴在头上的泳帽的纹理搞混。此时需要整张图的全局信息，当发现排球在排球场上，泳帽出现在泳池里，这时检测分类会更加准确，而不会因为局部纹理而被误导。
architecture
很多检测网络都是现在分类任务上pretrain的，文章认为这两个任务有很大不同k，分类任务需要对位置尺度不敏感，而检测任务对位置尺度敏感，因此不能直接生搬硬套。文章使用ImageNet cls-loc的1000类数据进行了pretrain，之后再在200类检测数据集上进行fine-tuning，获得更好效果。
comparison
文章认为CNN中间层每个channel，实际就是物体某个部件的响应图。这个HOG+DPM的流程非常类似，所以作者将DPM的思想加入CNN中，提出用于DPM计算的def-pooling layer。记第c个通道的feature map为 $M_c$ ,它的第 $(i,j)$ 个像素为 $M_c^{(i,j)}$ ,响应值为 $m_c^{(x,y)}$ 。记anchor中心坐标为 $(x,y)$ ,anchor上像素的偏移为 $(\delta_x,\delta_y)$ ，偏移像素点的绝对坐标为 zδx,δy=(x,

最低0.47元/天解锁文章