基于RCNN的改进,使用了SPPNet中提到的子图特征索引,从而只需要对输入图片做一次卷积就可以得到所有框的卷积结果。
另外使用ROI pooling将不同尺度的子图缩放到同一尺度,从而让全连接层可以处理。
另外删掉了RCNN中的SVM而用cross entropy loss来代替,联合regression loss可以让模型后半部分可以端到端的训练。
ROI(region of interest) pooling:和SPP的目标一样,就是将不同尺度的图片缩放到同一尺度的特征图,只不过ROI就是做的单一尺度,而SPP做的是多尺度。