整体训练框架大致为:
1.与R-CNN一样用Selective Search方法生成2000个建议矿框(proposals)
2.将整张图片直接输入CNN中,进行特征提取,得到feature map
3.把之前生成的2000个建议框映射到刚刚CNN提取的最后一层feature map 上
也就是说,与R-CNN最大的区别是fast R-CNN先进行特征提取,后映射2000个建议框(R-CNN先分2000个,将每个拉伸到227*227,将统一尺寸的建议框进行特征提取)上,避免了其中的重复计算
4.通过RoI pooling层 将每个建议框生成固定尺寸的feature map
5.利用 Softmax Loss和Smooth L1 Loss 对分类概率和边框回归(Bounding box regression)联合训练
整体探测框架大致为:
1.与R-CNN一样用Selective Search方法生成2000个建议矿框(proposals)
2.将整张图片直接输入CNN中,进行特征提取,得到feature map
3.把之前生成的2000个建议框映射到刚刚CNN提取的最后一层feature map 上
也就是说,与R-CNN最大的区别是fast R-CNN先进行特征提取,后映射2000个建议框(R-CNN先分2000个,将每个拉伸到227*227,将统一尺寸的建议框进行特征提取)上,避免了其中的重复计算
4.通过RoI pooling层 将每个建议框生成固定尺寸的feature map
5.利用 Softmax Loss 探测分类概率
6.利用Smooth L1 Loss探测边框回归:分段函数,四个角坐标带入再相加
检测:损失函数之SmoothL1Loss:https://blog.youkuaiyun.com/wfei101/article/details/79252021
7,用边框回归值校正原来的建议窗口,生成预测窗口坐标。