吴恩达deeplearning之CNN—卷积神经网络入门

最新推荐文章于 2025-11-17 14:39:43 发布

原创

最新推荐文章于 2025-11-17 14:39:43 发布 · 10w+ 阅读

193

921 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #cnn

本文介绍了卷积神经网络的基本概念，包括边界检测、卷积步长、padding等，并详细解释了如何通过不同类型的过滤器检测图像特征。还讨论了池化层的作用及常见卷积网络结构。

1.边界检测示例

假如你有一张如下的图像，你想让计算机搞清楚图像上有什么物体，你可以做的事情是检测图像的垂直边缘和水平边缘。
这里写图片描述
如下是一个6*6的灰度图像，构造一个3*3的矩阵，在卷积神经网络中通常称之为filter，对这个6*6的图像进行卷积运算，以左上角的-5计算为例
3*1+0*0+1*-1+1*1+5*0+8*-1+2*1+7*0+2*-1 = -5
其它的以此类推，让过滤器在图像上逐步滑动，对整个图像进行卷积计算得到一幅4*4的图像。
这里写图片描述
为什么这种卷积计算可以得到图像的边缘，下图0表示图像暗色区域，10为图像比较亮的区域，同样用一个3*3过滤器，对图像进行卷积，得到的图像中间亮，两边暗，亮色区域就对应图像边缘。

通过以下的水平过滤器和垂直过滤器，可以实现图像水平和垂直边缘检测。
这里写图片描述
以下列出了一些常用的过滤器，对于不同的过滤器也有着不同的争论，在卷积神经网络中把这些过滤器当成我们要学习的参数，卷积神经网络训练的目标就是去理解过滤器的参数。

2. padding

在上部分中，通过一个3*3的过滤器来对6*6的图像进行卷积，得到了一幅4*4的图像，假设输出图像大小为n*n与过滤器大小为f*f，输出图像大小则为 $(n-f+1)*(n-f+1)$ 。
这样做卷积运算的缺点是，卷积图像的大小会不断缩小，另外图像的左上角的元素只被一个输出所使用，所以在图像边缘的像素在输出中采用较少，也就意味着你丢掉了很多图像边缘的信息，为了解决这两个问题，就引入了padding操作，也就是在图像卷积操作之前，沿着图像边缘用0进行图像填充。对于3*3的过滤器，我们填充宽度为1时，就可以保证输出图像和输入图像一样大。
这里写图片描述
padding的两种模式：
Valid：no padding
输入图像n*n,过滤器f*f,输出图像大小为： $(n-f+1)*(n-f+1)$
Same：输出图像和输入图像一样大

3.卷积步长

卷积步长是指过滤器在图像上滑动的距离，前两部分步长都默认为1，如果卷积步长为2，卷积运算过程为：
这里写图片描述

加入stride后卷积图像大小的通用计算公式为：
输入图像：n*n，过滤器：f*f步长：s，padding：p
输出图像大小为: $\lfloor(\frac{n+2p-f}{s}+1))\rfloor*\lfloor(\frac{n+2p-f}{s}+1)\rfloor$ ， $\lfloor\rfloor$ 表示向下取整

以输入图像7*7，过滤器3*3，步长为2，padding模式为valid为例输出图像大小为: $\lfloor(\frac{7+2*0-3}{2}+1)\rfloor*\lfloor \frac{7+2*0-3}{2}+1)\rfloor=3*3$

4.彩色图像的卷积

以上讲述的卷积都是灰度图像的，如果想要在RGB图像上进行卷积，过滤器的大小不在是3*3而是有3*3*3，最后的3对应为通道数（channels），卷积生成图像中每个像素值为3*3*3过滤器对应位置和图像对应位置相乘累加，过滤器依次在RGB图像上滑动，最终生成图像大小为4*4。
这里写图片描述
另外一个问题是，如果我们在不仅仅在图像总检测一种类型的特征，而是要同时检测垂直边缘、水平边缘、45度边缘等等，也就是多个过滤器的问题。如果有两个过滤器，最终生成图像为4*4*2的立方体，这里的2来源于我们采用了两个过滤器。如果有10个过滤器那么输出图像就是4*4*10的立方体。
这里写图片描述

5.单层卷积网络

通过上一节的讲述，图像通过两个过滤器得到了两个4*4的矩阵，在两个矩阵上分别加入偏差 $b_1$ 和 $b_2$ ,然后对加入偏差的矩阵做非线性的Relu变换，得到一个新的4*4矩阵，这就是单层卷积网络的完整计算过程。用公式表示：

z [1] = w [1]

最低0.47元/天解锁文章

37 条评论

qq_42152802 2020.04.01
卷积池化讲清楚了，全连接和分类器没讲清楚，FC3 FC4

Amarantines 2019.12.25
请问从刚开始的3个过滤器，到后面的6个，再到后面的16个，是为什么呢，还是说随意设置，还是有什么规则

嘘嘘仔 2019.09.19
最后的400怎么变成FC3的啊
- #include｛｝回复嘘嘘仔 2020.04.09
  [reply]weixin_42580552[/reply]是把整个矩阵的元素看成一列元素了
- qq_42152802回复This_chao 2020.04.01
  [reply]weixin_39446611[/reply]FC3 FC4怎么来的 400是指5*5*16的图片放在一起成了一个400*1的图像吗？
- 嘘嘘仔回复嘘嘘仔 2019.11.11
  [reply]weixin_42580552[/reply] 没有……就是在看，不知道您能不能推荐些有什么适合我的，要先去了解的知识，感谢
- This_chao回复嘘嘘仔 2019.11.09
  你应该学过前馈神经网络吧？？
- 嘘嘘仔回复This_chao 2019.10.28
  [reply]weixin_39446611[/reply] 就是他的过程是怎么转变的
- This_chao回复嘘嘘仔 2019.10.25
  [reply]weixin_42580552[/reply] 全连接层的输出！

技术人Howzit 2019.03.21
棒，算是入门CNN了。哈哈哈

gzbdeleyuan 2019.01.07
谢谢分享

weixin_43133465 2018.12.14
写的太好了

大厨666 2018.12.10
最后一个手写识别的例子中每个卷积核的个数忘了指定吧？
- qq_42152802回复大厨666 2020.04.01
  [reply]m0_38128694[/reply]第一卷积层是6个第二卷积层是16个

蓦然与阑珊 2018.11.17
博主是在哪看的吴恩达老师的视频呀
- C18215158681回复蓦然与阑珊 2018.11.26
  [reply]weixin_42732878[/reply] 哔哩哔哩上面可以看
- 萱萱子回复banbs_yip 2018.11.24
  [reply]qq_21897529[/reply] 在微专业里面，有另外5门课，也是免费的
- banbs_yip回复萱萱子 2018.11.22
  [reply]qq_42269506[/reply] 现在网易云课堂只有吴恩达机器学习，而且神经网络这块并没有讲这些，可能早先的课程都下架了吧
- 萱萱子回复蓦然与阑珊 2018.11.21
  [reply]weixin_42732878[/reply] 网易云课堂

Gohtsen 2018.11.16
博主，文章里的截图里，原矩阵卷积filter矩阵，运算的时候filter并没有翻转，好像跟卷积的定义不一样啊。
- huzhem回复Gohtsen 2020.06.30
  [reply]Gohtsen[/reply]视频中，老师有解释，为什么把相关作为卷积
- 「已注销」回复Gohtsen 2018.12.03
  [reply]Gohtsen[/reply] 你说的没错，一般二维卷积，filter要先逆时针翻转90度，不过DL中统一的把相关叫做卷积了。
- 行走在沙漠的鱼回复Gohtsen 2018.11.30
  [reply]Gohtsen[/reply] 个人觉得卷积定义是定义，这个完全可以是这么处理呀