全连接层多层感知机十分适合处理表格数据 行对应样本,列对应特征。
将图像数据展平为一维向量会忽略每张图像的空间结构信息。
猫狗分类使用相机采集6B图片(3600万像素),用100个神经元的单层MLP,模型有36亿个参数,远超地球上猫狗数量。
展示神经网络结构,包含输入层、隐藏层、输出层及参数计算(100×3600万 = 36亿 ,3600万个特征)。
使用卷积神经网络可通过共享参数机制、多种池化方法大幅降低参数。
沃尔多游戏两个原则:
- 平移不变性:检测对象在图像中位置不同,神经网络前面几层应有相似反应。
- 局部性:神经网络前面几层只探索图像中局部区域,不考虑相隔很远区域的关系。
图像卷积展示卷积运算过程,包括输入(Input)、卷积核(Kernel)和输出(Output)的计算示例。
卷积层
包括核
偏差b:b∈R
输出矩阵 w和b是可学习的参数
卷积层对输入和卷积核进行互相关运算,添加标量偏差后产生输出。
列举不同卷积核应用例子,如边缘检测、锐化、高斯模糊。
多通道的卷积层
总结卷积层运算,即对输入和卷积核进行互相关运算,加偏差后得输出核矩阵和偏移是可学习的参数核矩阵大小是超参数填充和步幅
填充给定输入图像(32×32)应用5×5卷积核第一层得到的输出大小为28×28第七层得到的输出大小4×4更大的卷积核可以更快的减少输出填充:在输入周围添加额行/列
步幅
步幅概念,即指行/列的滑动步长
总结填充步幅可改变输出的高度和宽度填充在输入周围添加额外的行/列,增加输出的高度和宽度步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状填充和步幅可用于有效地调整数据的维度 多个输入和输出通道指出转换为灰度图可能丢失RGB三个通道信息。
每个通道有卷积核,结果是所有通道卷积结果的和。
池化层最大池层
平均池化层:将最大池化中的"最大"操作替换为"平均"