机器学习--卷积神经网络3-优快云博客

一、观察3：下采样不影响模式检测

把一张比较大的图像做下采样（downsampling），把图像偶数的列都拿掉，奇数的行都拿掉，图像变成为原来的 1/4，但是不会影响里面是什么东西。如图，把一张大的鸟的图像缩小，这张小的图像还是一只鸟。
在这里插入图片描述

二、简化3：汇聚

汇聚比较像 Sigmoid、 ReLU 等激活函数，因为它里面是没有要学习的参数的，它就是一个操作符（operator），其行为都是固定好的。

每个滤波器都产生一组数字，要做汇聚的时候，把这些数字分组，可以 2 × 2个一组，3 × 3、4 × 4 也可以。

汇聚有很多不同的版本，以最大汇聚（max pooling） 为例。最大汇聚在每一组里面选一个代表，选的代表就是最大的一个。
在这里插入图片描述
最大汇聚结果：

除了最大汇聚，还有平均汇聚（mean pooling） ，平均汇聚是取每一组的平均值。
汇聚就是把图像变小。做完卷积以后会得到一张图像，这张图像里面有很多的通道。做完汇聚以后，4 × 4 的图像就会变成 2 × 2 的图像，但这张图像的通道不变。
实践中往往就是卷积跟汇聚交替使用，可能做几次卷积，做一次汇聚。不过汇聚对于模型的性能（performance）可能会带来一点伤害。假设要检测的是非常微细的东西，随便做下采样，性能可能会稍微差一点。
汇聚最主要的作用是减少运算量，通过下采样把图像变小，从而减少运算量。

一般架构就是卷积加汇聚，汇聚是可有可无的。如果做完几次卷积和汇聚以后，把汇聚的输出做扁平化（flatten）（就是把图像里面本来排成矩阵样子的东西“拉直”，即把所有的数值“拉直”变成一个向量），再把这个向量丢进全连接层里面，最终还要过个 softmax 来得到图像识别的结果。
在这里插入图片描述
这就是一个经典的图像识别的网络，里面有卷积、汇聚和扁平化，最后再通过几个全连接层或 softmax 来得到图像识别的结果。