问题背景:本来想直接跳到R-CNN的,转念一想,基础没打牢还是不好,于是又回过头来学习学习AlexNet。
原文链接:https://blog.youkuaiyun.com/taoyanqi8932/article/details/71081390
一、原理部分
上图是来自paper的原汁原味AlexNet网络结构。可以看到:
整个网络从左往右,有一个输入,然后有8个需要训练的层,前5个为卷积层,最后3层为全连接层。分别说说这些层:
第一个层 conv_1:
- 输入的图片大小为224*224*3
- 有96个卷积核,尺寸为11*11,即11*11*96。步长(stride)为4.
- 按照无padding的方式,输出的每个feature map尺寸应该为54*54
怎么计算出来?(224-11+1)/4,向上取整,或者 (224-11)/4+1,向下取整
但论文里面写输出的尺寸是55*55,关于这个,有2种解释:
1)这里用了padding=SAME的方式,可参考这个链接理解,有兴趣的去看API