卷积神经网络基础知识

海金沙33

已于 2025-02-20 10:53:06 修改

阅读量343

点赞数 4

文章标签：人工智能

于 2025-02-20 10:44:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_82430542/article/details/145745285

版权

多层感知机的局限性

参数太多：处理图像时，参数量巨大，R G B通道像素数量多，导致计算复杂度高，例如使用 100 个神经元单隐含层的 MLP ，模型有 36 亿个参数远超过地球上的狗和猫的数量

不利于表达空间结构：多层感知机会破坏图像的空间结构信息，导致一些特征信息丢失，通过将图像数据展平成一维向量而忽略了每张图像的空间结构信息

难以反映平移不变性：无法有效处理图像中平移不变性问题

难以表征抽象层级：无法有效提取图像中的浅层和高层特征。

多层感知机适合处理的数据

多层感知机十分适合处理表格数据，行对应样本，列对应特征，因为表格中的样式都是相互独立，相互没有影响。

卷积神经网络的优势

参数量少：通过共享参数机制和多池化方法减少参数量

平移不变性：不管检测对象出现在图像中的哪个位置，神经网络的前面几层都应该对相同的图像区域具有相似的反应。卷积核在图像上进行卷积，保持对检测对象的相似反应

局部性：只关注输入图像的局部区域，不过度在意相隔较远的区域的关系

视觉分层理论：从底层到高层不断抽象，提取浅层特征和高层语义信息

卷积神经网络的操作

卷积层：通过卷积核在图像上滑动进行卷积操作，提取图像特征

图像卷积

卷积核与被卷积核互相相乘，得出输出结果

输入矩阵X：Nh✖️Nw

核W矩阵：Kh✖️Kw

偏差b:b∈R

输出矩阵Y:（Nh➖Kn➕1）✖️（Nw➖Kw➕1）

W和b是可学习的参数

卷积层对输入和卷积核进行互相关运算，并在添加标量偏置之后产生输

填充

填充的作用是保持边缘信息和调整输出图像的尺寸

给定输入图像（32*32）

应用5*5大小的卷积核

第一层得到输出大小28*28

第七层得到输出大小4*4

更大的卷积核可以更快地减少输出

形状上从Nh✖️Nw减少到

（Nh➖Kh➕1）✖️（Nw➖Kw➕1）

填充:在输入周围添加额外的行/列，补0，可以让边缘的数据进行卷积多次

步幅

步长可以加快计算速度并减小输出图像尺寸

步幅是指行/列的滑动步长

向下移动3，右边移动2的步幅

总结

填充和步幅可以改变输出高度和宽度

填充在输入周围添加额外的行/列，增加输出的高度和宽度

步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状

填充和步幅可用于有效地调整数据的维度

多个输入和输出通道

彩色图像可能有 RGB 三个通道转换为灰度会丢失信息

多通道的卷积层

R代表红色通道，G代表绿色通道，B代表蓝色通道，卷积核分别与被卷积层滑动计算，第一个输出结果为3，第二个和第三个为0，b为0，相加等于3，同理可得，其他数据也是这样计算得出，几个卷积核就输出会几个通道数据，可以得到几个图像

卷积层总结

卷积层将输入和卷积核进行交叉相关，加上偏移后得到输出

核矩阵和偏移是可学习的参数，参数是可变的，通过设置不断参数设置，更加设计好模型

核矩阵的大小是超参数，超参数必须在训练模型前进行敲定，否则模型可能会出现问题

例如

一些取值可以实现不中的效果

池化层

池化层：通过采样减少特征图的尺寸，保留重要信息

最大池化层

在被卷积的范围内选取最大值就是输出结果

平均池化层

0-255中，最大池化层表示越白，图像的高光，而平均池化层就是在颜色中取的平均值，和稀泥就是呈现灰色

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。