一、全连接层
1、多层感知机:十分适合处理表格数据,行对应样本,列对应特征。通过将图像数据展平成一维向量而忽略了每张图像的空间结构信息。
2、猫狗分类
使用一个还不错的相机采集RGB图片(3600万个像素)使用 100 个神经元单隐含层的 MLP ,模型有 36 亿个参数,远超过地球上的狗和猫的数量。使用卷积神经网络可大大降低参数量:共享参数机制、多种池化方法。
二、两个原则
1、平移不变性
不管检测对象出现在图像中的哪个位置,神经网络的前面几层都应该对相同的图像区域具有相似的反应。
2、局部性
神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远的区域的关系。
三、卷积层
卷积层对输入和卷积核进行互相关运算,并在添加标量偏置之后产生输出。卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出。核矩阵和偏移是可学习的参数。核矩阵的大小是超参数
- 输入矩阵X:n_h×n_w
- 核W矩阵:k_h×k_w
- 偏差b:b∈R
- 输出矩阵Y:(n_h-k_h+1)×(n_w-k_w+1)
- W 和 b 是可学习的参数
四、填充和步幅
填充和步幅可以改变输出的高度和宽度。填充在输入周围添加额外的行/列,增加输出的高度和宽度。步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状。填充和步幅可用于有效地调整数据的维度。
1、填充
在输入周围添加额外的行列,通常填充元素是0
给定输入图像(32 x 32)
应用5 x 5大小的卷积核
第1层得到输出大小28 x 28
第7层得到输出大小4 x 4
更大的卷积核可以更快地减小输出
形状从n_h×n_w减少到
(n_h-k_h+1)×(n_w-k_w+1)
2、步幅
步幅是指行列的滑动步长。
给定输入大小224*224,在使用5*5卷积核的情况下,需要55层将输出降低到4*4,需要大量的计算
五、多个输入和输出通道
1、彩色图像可能有 RGB 三个通道,转换为灰度会丢失信息。
2、每个通道都有一个卷积核,结果是所有通道卷积结果的和
六、池化层
池化层包括最大池化层和平均池化层。
1、最大池化层:max(0,1,3,4)=4
2、平均池化层:将最大池化层中的“最大”操作替换为“平均”
七、总结
卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出。核矩阵和偏移是可学习的参数。核矩阵的大小是超参数。填充和步幅可以改变输出的高度和宽度。填充在输入周围添加额外的行/列,增加输出的高度和宽度。步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状。填充和步幅可用于有效地调整数据的维度。