09.CNN基础

最新推荐文章于 2024-08-09 17:14:47 发布

原创最新推荐文章于 2024-08-09 17:14:47 发布 · 257 阅读

CC 4.0 BY-SA版权

文章标签：

本文主要介绍卷积神经网络（CNN）的基础知识。CNN主要用于计算机视觉任务，也可用于语音识别。文章阐述了CNN的工作方式，解释了卷积的概念，即对图像特征的提取。还介绍了CNN的基本架构，包括卷积层、非线性变换层、池化层和全连接层，并详细说明了卷积层和池化层的参数。

卷积神经网络主要应用于计算机视觉相关任务，但它能处理的任务并不局限于图像，其实语音识别也是可以使用卷积神经网络的。

当计算机看到一张图像（输入一张图像）时，它看的是一大堆像素值。
当我们人类对图像进行分类时，这些数字毫无用处，可他们却是计算机可获得的唯一输入。
现在的问题是：当你提供给计算机这一数组后，它将输出描述该图像属于某一特定分类的概率的数字（eg.80%是猫。15%是狗，5%是鸟）

我们人类是通过特征来区分猫狗，现在想要计算机能够区分开猫和够的图片，就要计算搞清楚猫狗的各自的特有特征。
计算机可以通过寻找诸如边缘和曲线之类的低级特点来分类图片，继而通过一系列卷积层级构建出更为抽象的概念。
上述就是CNN工作方式的大体概述。

为什么叫卷积神经网络？
CNN是从视觉皮层的生物学上获得启发的。
简单来说，就是视觉皮层有小部分的细胞对特定部分的视觉区域很敏感
例如：一些神经元只对垂直边缘兴奋，另一些对水平或对角边缘兴奋。

挑一张图片，让它经历一些列的
卷积层
非线性层
池化层（下采样（downsampling）） %一个图片有很多特征，需要简化特征
全连接层（sigmoid --猫或狗，0或1 softmax --0 1 2 3多分类）
then得到输出。输出最好是可以描述图像内容的一个单独分类或一组分类的概率

（听不懂的描述。小声bb）
卷积是指将卷积核应用到某个张量的所有点上，通过将卷积核在输入的张量上滑动而生成经过滤波处理的张量。
卷积核：自己规定卷积核是33或者 55个等等等像素点做为一个卷积核
然后做卷积得到（其实卷积就可以想象成乘以权重+bias）一个输出。

总的来说：卷积完成的是对图像特征的提取（不同的卷积核可以提取不同的特征）或者说信息匹配，当一个包含某些特征的图像经过一个卷积核的时候，一些卷积核被激活，输出特定信号。

比如，我们训练区分猫狗的图像的时候，卷积核会被训练，训练的结果就是，卷积核会对猫和狗不同特征敏感，输出不同的结果，从而达到了图像识别的目的。

基本架构：
卷积层 conv2d
非线性变换层 relu/sigmiod/tanh
池化层 pooling2d
全连接层 w*x+b
如果没有这些层，模型很难与复杂模式匹配，因为网络将有过多的信息填充，也就是说其他的层都是为了突出重要信息，降低噪声。

下面分别详细介绍一下这些层

卷积层有三个参数：
ksize 卷积核的大小
strides 卷积核移动的跨度（直接影响生成图像大小）
padding 边缘填充（像素值不能被卷积核大小整除）

对应程序中的Conv2D参数
filters --我们要训练多少个卷积核，是训练后的图片有多“厚”
kernel_size
strides
padding
比较详细的解释

池化层实现的功能就是所谓的降采样。
pool_size 和卷积核类似
strides 同卷积（一般在池化时不跳过）
padding 同卷积

所以池化层和卷积层参数基本类似。