faster rcnn end2end 训练与测试

最新推荐文章于 2024-04-21 15:46:09 发布

原创最新推荐文章于 2024-04-21 15:46:09 发布 · 4.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

深度学习专栏收录该内容

25 篇文章

订阅专栏

本文深入探讨Faster R-CNN的端到端训练机制，对比交替训练方式，介绍了其如何通过简化训练流程减少内存消耗，并讨论了RoI Pooling层的导数问题及解决方案。

除了前面讲过的rpn与fast rcnn交替训练外，faster rcnn还提供了一种近乎联合的训练，姑且称为end2end训练。

根据论文所讲，end2end的训练一气呵成，对于前向传播，rpn可以作为预设的网络提供proposal.而在后向传播中，rpn,与fast rcnn分别传导，而汇聚到shared layer.,但是没有考虑掉roi pooling层对于predicted bounding box的导数。如下图：

我们这里截取Ross'Girshick 在ICCV15上的ppt<Training'R-CNNs' of 'various 'velocities Slow, fast, and faster>

对于roi pooling层，显然依赖于图像本身，和roi区域。对于fast rcnn来讲，roi是固定的，而对于faster rcnn来说，roi是通过rpn产生的，rpn不定，所以roi的生成依赖于

图像。

但是由于最大池化的作用，所以没有办法对roi的四个位置求导。

所以忽略掉对于roi的导数，当然了如果改变max pooling的方式，比如如下所说采取双线性插值，这样输出既有roi的坐标也有图像像素值，则可以关于roi求导。

根据github上py-faster-rcnn描述

For training smaller networks (ZF, VGG_CNN_M_1024) a good GPU (e.g., Titan, K20, K40, ...) with at least 3G of memory suffices
For training Fast R-CNN with VGG16, you'll need a K40 (~11G of memory)
For training the end-to-end version of Faster R-CNN with VGG16, 3G of GPU memory is sufficient (using CUDNN)

使用end2end的训练方式，显存也减少了，从原先的11g减少到3g.我觉得主要的原因是在原先的交替训练中，rpn训练结束后，会有一个rpn生成的过程，这时会生成所有训练图片的proposals,而这是个巨大的负担。而使用end2end的方式训练，一次训练一张图片，rpn阶段产生一张图片的proposal，然后送入fast rcnn训练。显然这种方法很省时也很省内存。

对于end2end的测试，从网络配置上基本与交替训练的相同。在一些小的细节，比如end2end测试时仍然保留了drop层，而对于交替训练的方式，在训练阶段有，测试时去掉了。

下面给出了个人画的end2end的训练网络图。

请访问：链接

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。