主要参考:http://www.lxway.com/551256526.htm
在这里,我只note一下一些比较重要的地方。
1. mAP: mean average precision
2. 在将region缩放到CNN所要求的size时,文中为:
In order to compute features for a region proposal, we must first convert the image data in that region into a form that is compatible with the CNN (its architecture requires inputs of a fixed 227 × 227 pixel
size). Of the many possible transformations of our arbitrary-shaped regions, we opt for the simplest. Regardless of the size or aspect ratio of the candidate region, we warp all pixels in a tight bounding box around it to the required size. Prior to warping,
we dilate the tight bounding box so that at the warped size there are exactly p pixels of warped image context around the original box (we use p = 16).
翻译为:
为了能计算region proposal的特征,我们首先将图片数据转换成CNN网络兼容的格式(CNN网络的结构要求227*227像素固定大小的输入图片数据)。在我们任意大小区域可能转换的方式中,我们选择最简单的。不管候选区域的大小和长宽比,我们将物体附近的包裹紧密的包围盒(bounding
box)中的像素warp到要求的大小尺寸。在warping之前,我们先扩张包围紧密的包围盒, so that 在warped大小尺寸基础上在原有的包围盒周围恰好有p个像素的warped图像内容(我们用p=16).
我觉得这样的好处是稍微扩大region,将背景也包括进来来提供先验信息。
本文介绍mAP(mean average precision)的概念,并详细解析如何将不同大小和比例的候选区域调整为适合CNN输入的固定尺寸227×227像素。通过扩张候选区域周围的紧致边界框并进行像素warping,使模型能够处理各种形状的输入。
492

被折叠的 条评论
为什么被折叠?



