在学习RCNN的过程中,一直搞不明白resize 227*227这个步骤之前的context padding(建议框padding)这个步骤是怎么进行的,因为发现原论文中最后得到的resize图片(下图 a中红框)跟我所理解得到的resize图片不太相符,

图 a
我所理解的padding后的图片,应该是上下左右都等距地扩大16个像素值,但是从图a中红框可以看出原文并没有进行等距地扩大16个像素,所以百思不得其解,在google各种问题,查看各种网址,最终在源代码中找到了答案,分别查看:
1. rcnn_create_model.m
2.rcnn_extract_regions.m
3.rcnn_im_crop.m
这3个文件发现:虽然文中说是padding 16个像素值,但是却是在保持长宽比的基础上进行padding,也就是说如果一幅影像的长宽比不是1:1的话,那么建议框的扩大也不是按照1:1进行。
对于文中出现的各向同性变形以及各向异性变形,可以参考这篇文章:
https://www.jianshu.com/p/3a0a0e5a26a1

博客详细介绍了在RCNN目标检测过程中,如何进行建议框的context padding,澄清了原论文中关于resize图片的疑惑。作者通过研究`rcnn_create_model.m`, `rcnn_extract_regions.m`, `rcnn_im_crop.m`三个文件,发现padding并非简单的等距扩大16像素,而是基于图像长宽比进行,以保持形状不变。同时提到了各向同性和各向异性变形的概念,并推荐了一篇相关文章进行深入理解。"
136089646,8269512,前后端交互实现分页功能设计解析,"['前端开发', '后端开发', '数据库']
最低0.47元/天 解锁文章
1122

被折叠的 条评论
为什么被折叠?



