三种经典的网络结构
- LeNet-5(1998)
- Alex Net(2012)
- VGG-16(2015)
都是大佬的作品,非常经典,有时间要拜读论文呀(每张网络结构图片上都有论文信息)
LeNet-5
LeNet-5的任务
识别手写数字,因为它是在灰度图像上训练,所以图片的维度是32x32x1。
LeNet-5的结构
最后一件以前做现在没有再做的事是 原始LeNet-5在池化后有非线性处理 我想应是池化层后用了sigmoid非线性 所以如果你读了这篇论文 这是一篇较难的论文 与随后一些视频中讲的论文相比 随后这篇论文更容易开始 这张幻灯片中大部分算法属于论文第二三章 后面几章讨论了其他想法 即图转换网络(GTN) 该网络现在已不再广泛使用 所以如果你想读这篇论文 我推荐多关注讨论LeNet-5结构的第二章 也可以快速看下第三章 第三章很有趣 讲了实验和结果
因为年代原因LeNet-5需要重新考虑的部分
- LeNet-5的池化层选用的是均值pooling,现在很少用均值pooling,大部分情况下都 是使用max pooling
- 在这篇文章完成的1998年,人们不怎么用填充或你总用有效卷积计算。这也就是为什么每次你用卷积层结果的尺寸都会缩小。所以这就是为什么这里你会得到从14乘14降到10乘10的结果,然后接着另一池化层,因此高和宽都以2的因子降低,然后得到5乘5的结果。
- 作为该网络结构的现代版,我们用softmax层来生成10个分类结果,尽管LeNet-5原先是用别的分类器做输出层,而这个分类器现在已经不用了。 <