----- 对背景问题的理解 -----
之前一直在想一个问题:一个Label在原图上标记出一个包含目标的区域。这个框在特征提取后,大小被缩小到了什么程度?
如果这个label框本身就不大,那么经过几层池化之后,是不是在最后的feature map上都没有一个位置,能够对应到这个区域?
目标在特征提取过程中,由于这种深度结构导致目标被【腐蚀】或者说该目标的特征被淹没。
这个问题更广义的描述:针对一个固定网络,多大的框(目标)才能在深度网络提取的特征中至少剩余一个明确的像素点,指向这个目标。
反过来看,也就是说最后一层的feature map上的一个点,映射回原图得到一片感受野,如果目标框比这个感受野还要小,会不会就是过度的特征提取?假设这个思路成立,可能这就是模型能力相对与不同大小的目标而言的一种模糊下界。
一直在调参,就把这个问题放在这里了。前天师兄让我帮他看看roi-align,扫了一眼发现,其实上面的问题跟align试图解决的问题很相似。不同的是,它不是假设小目标被【腐蚀】了。而是说这个目标其实还能对应上特征图上的某一个小点甚至是区域,但是因为量化问题,使得稍微的一点偏差,对于小目标的特征来说,都影响十足。就好像眼里掉入了一颗灰尘和眼里掉入了一颗小石子的区别。
下面说一说我的解读。
---------------------------
论文:https://arxiv.org/pdf/1703.06870.pdf Mask-RCNN
代码:https://github.com/matterport/Mask_RCNN
针对问题:roi-pooling的量化误差对小目标的影响
------