论文链接 :http://arxiv.org/abs/1804.05275v4
代码链接:https://github.com/SHI-Labs/Horizontal-Pyramid-Matching
[模型框架]
(1)backbone: 使用resnet50从输入图像提取特征图;使用ImageNet的预训练权重;与resnet50不同在于:conv4_1的步长由2改成1,并且去掉平均池化层和全连接层。
(2)horizontal pyramid pooling: 首先根据scale水平划分特征图:分别进行最大池化和平均池化,两者结果对应相加;通过1*1的卷积核进行降维。
[具体实施]
1、通过水平翻转增加图像数目,并对图像进行归一化;
2、输入图像大小:384*128,提取到的特征图尺寸是输入的1/16;
3、训练参数:epoch=60; 基准学习率是0.1,训练40个epoch后下降到0.01,预训练的resnet层的学习率是0.1*基准学习率;batch_size=64; SGD设置momentum=0.9;
参考链接:
https://blog.youkuaiyun.com/fresh_milk/article/details/89517966
ps:
各个池化操作优缺点、原理解说:
https://blog.youkuaiyun.com/u013289254/article/details/99080916