一、观察3:下采样不影响模式检测
把一张比较大的图像做下采样(downsampling),把图像偶数的列都拿掉,奇数的行都拿掉,图像变成为原来的 1/4,但是不会影响里面是什么东西。如图,把一张大的鸟的图像缩小,这张小的图像还是一只鸟。

二、简化3:汇聚
汇聚比较像 Sigmoid、 ReLU 等激活函数,因为它里面是没有要学习的参数的,它就是一个操作符(operator),其行为都是固定好的。
每个滤波器都产生一组数字,要做汇聚的时候,把这些数字分组,可以 2 × 2个一组,3 × 3、4 × 4 也可以。
汇聚有很多不同的版本,以最大汇聚(max pooling) 为例。最大汇聚在每一组里面选一个代表,选的代表就是最大的一个。

最大汇聚结果:

除了最大汇聚,还有平均汇聚(mean pooling) ,平均汇聚是取每一组的平均值。
汇聚就是把图像变小。做完卷积以后会得到一张图像,这张图像里面有很多的通道。做完汇聚以后,4 × 4 的图像就会变成 2 × 2 的图像,但这张图像的通道不变。
实践中往往就是卷积跟汇聚交替使用,可能做几次卷积,做一次汇聚。不过汇聚对于模型的性能(performance)可能会带来一点伤害。假设要检测的是非常微细的东西,随便做下采样,性能可能会稍微差一点。
汇聚最主要的作用是减少运算量,通过下采样把图像变小,从而减少运算量。
一般架构就是卷积加汇聚,汇聚是可有可无的。如果做完几次卷积和汇聚以后,把汇聚的输出做扁平化(flatten)(就是把图像里面本来排成矩阵样子的东西“拉直”,即把所有的数值“拉直”变成一个向量),再把这个向量丢进全连接层里面,最终还要过个 softmax 来得到图像识别的结果。

这就是一个经典的图像识别的网络,里面有卷积、汇聚和扁平化,最后再通过几个全连接层或 softmax 来得到图像识别的结果。

被折叠的 条评论
为什么被折叠?



