多层感知机的局限性
参数太多:处理图像时,参数量巨大,R G B通道像素数量多,导致计算复杂度高,例如使用 100 个神经元单隐含层的 MLP ,模型有 36 亿个参数远超过地球上的狗和猫的数量
不利于表达空间结构:多层感知机会破坏图像的空间结构信息,导致一些特征信息丢失,通过将图像数据展平成一维向量而忽略了每张图像的空间结构信息
难以反映平移不变性:无法有效处理图像中平移不变性问题
难以表征抽象层级:无法有效提取图像中的浅层和高层特征。
多层感知机适合处理的数据
多层感知机十分适合处理表格数据,行对应样本,列对应特征,因为表格中的样式都是相互独立,相互没有影响。
卷积神经网络的优势
参数量少:通过共享参数机制和多池化方法减少参数量
平移不变性:不管检测对象出现在图像中的哪个位置,神经网络的前面几层都应该对相同的图像区域具有相似的反应。卷积核在图像上进行卷积,保持对检测对象的相似反应
局部性:只关注输入图像的局部区域,不过度在意相隔较远的区域的关系
视觉分层理论:从底层到高层不断抽象 ,提取浅层特征和高层语义信息
卷积神经网络的操作
卷积层:通过卷积核在图像上滑动进行卷积操作,提取图像特征
图像卷积
卷积核与被卷积核互相相乘,得出输出结果
输入矩阵X:Nh✖️Nw
核W矩阵:Kh✖️Kw
偏差b:b∈R
输出矩阵Y:(Nh➖Kn➕1)✖️(Nw➖Kw➕1)
W和b是可学习的参数
卷积层对输入和卷积核进行互相关运算,并在添加标量偏置之后产生输
填充
填充的作用是保持边缘信息和调整输出图像的尺寸
给定输入图像(32*32)
应用5*5大小的卷积核
第一层得到输出大小28*28
第七层得到输出大小4*4
更大的卷积核可以更快地减少输出
形状上从Nh✖️Nw减少到
(Nh➖Kh➕1)✖️(Nw➖Kw➕1)
填充:在输入周围添加额外的行/列,补0,可以让边缘的数据进行卷积多次
步幅
步长可以加快计算速度并减小输出图像尺寸
步幅是指行/列的滑动步长
向下移动3,右边移动2的步幅
总结
填充和步幅可以改变输出高度和宽度
填充在输入周围添加额外的行/列,增加输出的高度和宽度
步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状
填充和步幅可用于有效地调整数据的维度
多个输入和输出通道
彩色图像可能有 RGB 三个通道转换为灰度会丢失信息
多通道的卷积层
R代表红色通道,G代表绿色通道,B代表蓝色通道,卷积核分别与被卷积层滑动计算,第一个输出结果为3,第二个和第三个为0,b为0,相加等于3,同理可得,其他数据也是这样计算得出,几个卷积核就输出会几个通道数据,可以得到几个图像
卷积层总结
卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出
核矩阵和偏移是可学习的参数,参数是可变的,通过设置不断参数设置,更加设计好模型
核矩阵的大小是超参数,超参数必须在训练模型前进行敲定,否则模型可能会出现问题
例如
一些取值可以实现不中的效果
池化层
池化层:通过采样减少特征图的尺寸,保留重要信息
最大池化层
在被卷积的范围内选取最大值 就是输出结果
平均池化层
0-255中,最大池化层表示越白 ,图像的高光,而平均池化层就是在颜色中取的平均值,和稀泥就是呈现灰色