卷积神经网络基础知识

多层感知机的局限性

参数太多:处理图像时,参数量巨大,R G B通道像素数量多,导致计算复杂度高,例如使用 100 个神经元单隐含层的 MLP ,模型有 36 亿个参数远超过地球上的狗和猫的数量

 

不利于表达空间结构:多层感知机会破坏图像的空间结构信息,导致一些特征信息丢失,通过将图像数据展平成一维向量而忽略了每张图像的空间结构信息

难以反映平移不变性:无法有效处理图像中平移不变性问题

难以表征抽象层级:无法有效提取图像中的浅层和高层特征。

多层感知机适合处理的数据

多层感知机十分适合处理表格数据,行对应样本,列对应特征,因为表格中的样式都是相互独立,相互没有影响。

卷积神经网络的优势

参数量少通过共享参数机制和多池化方法减少参数量

 

平移不变性:不管检测对象出现在图像中的哪个位置,神经网络的前面几层都应该对相同的图像区域具有相似的反应。卷积核在图像上进行卷积,保持对检测对象的相似反应

局部性:只关注输入图像的局部区域,不过度在意相隔较远的区域的关系

视觉分层理论:从底层到高层不断抽象 ,提取浅层特征和高层语义信息

卷积神经网络的操作

卷积层:通过卷积核在图像上滑动进行卷积操作,提取图像特征

图像卷积

 卷积核与被卷积核互相相乘,得出输出结果

输入矩阵X:Nh✖️Nw

核W矩阵:Kh✖️Kw

偏差b:b∈R

输出矩阵Y:(Nh➖Kn➕1)✖️(Nw➖Kw➕1)

W和b是可学习的参数

卷积层对输入和卷积核进行互相关运算,并在添加标量偏置之后产生输

填充

填充的作用是保持边缘信息和调整输出图像的尺寸

给定输入图像(32*32)

应用5*5大小的卷积核

  第一层得到输出大小28*28

第七层得到输出大小4*4

更大的卷积核可以更快地减少输出

形状上从Nh✖️Nw减少到

(Nh➖Kh➕1)✖️(Nw➖Kw➕1)

填充:在输入周围添加额外的行/列,补0,可以让边缘的数据进行卷积多次

 

 步幅

步长可以加快计算速度并减小输出图像尺寸

步幅是指行/列的滑动步长

 向下移动3,右边移动2的步幅

总结

填充和步幅可以改变输出高度和宽度

填充在输入周围添加额外的行/列,增加输出的高度和宽度

步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状

填充和步幅可用于有效地调整数据的维度

 

多个输入和输出通道

彩色图像可能有 RGB 三个通道转换为灰度会丢失信息

多通道的卷积层

 R代表红色通道,G代表绿色通道,B代表蓝色通道,卷积核分别与被卷积层滑动计算,第一个输出结果为3,第二个和第三个为0,b为0,相加等于3,同理可得,其他数据也是这样计算得出,几个卷积核就输出会几个通道数据,可以得到几个图像

卷积层总结

卷积层将输入和卷积核进行交叉相关,加上偏移后得到输出

核矩阵和偏移是可学习的参数,参数是可变的,通过设置不断参数设置,更加设计好模型

核矩阵的大小是超参数,超参数必须在训练模型前进行敲定,否则模型可能会出现问题

例如

一些取值可以实现不中的效果

 池化层

池化层:通过采样减少特征图的尺寸,保留重要信息

最大池化层

在被卷积的范围内选取最大值 就是输出结果

平均池化层

0-255中,最大池化层表示越白 ,图像的高光,而平均池化层就是在颜色中取的平均值,和稀泥就是呈现灰色

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值