卷积神经网络——卷积神经网络基础（9）

深度学习之机器视觉

最新推荐文章于 2022-08-16 16:27:31 发布

转载最新推荐文章于 2022-08-16 16:27:31 发布 · 335 阅读

文章标签：

#deeplearing

本文深入探讨了机器视觉中的关键概念和技术，包括图像分类、物体检测、风格迁移、边缘检测和三维立体卷积。详细讲解了卷积神经网络（CNN）的工作原理，包括单层卷积神经网络的结构、参数计算、激活函数的使用，以及池化层的作用。并通过实例展示了CNN在网络设计中的应用。

机器视觉

机器视觉（Computer Vision）是深度学习应用的主要方向之一。一般的CV问题包括以下三类：

Image Classification
Object detection
Neural Style Transfer

1.边缘检测

对于CV问题，我们在之前的笔记中介绍过，神经网络由浅层到深层，分别可以检测出图片的边缘特征、局部特征（例如眼睛、鼻子等）、整体面部轮廓。

这一小节我们将介绍如何检测图片的边缘。

最常检测的图片边缘有两类：一是垂直边缘（vertical edges），二是水平边缘（horizontal edges）。

除了上面提到的这种简单的Vertical、Horizontal滤波器之外，还有其它常用的filters，例如Sobel filter和Scharr filter。这两种滤波器的特点是增加图片中心区域的权重。

在深度学习中，如果我们想检测图片的各种边缘特征，而不仅限于垂直边缘和水平边缘，那么filter的数值一般需要通过模型训练得到，类似于标准神经网络中的权重W一样由梯度下降算法反复迭代求得。CNN（卷积神经网络）的主要目的就是计算出这些filter的数值。确定得到了这些filter后，CNN浅层网络也就实现了对图片所有边缘特征的检测。

2.三维立体卷积

对于3通道的RGB图片，其对应的滤波器算子同样也是3通道的。例如一个图片是6 x 6 x 3，分别表示图片的高度（height）、宽度（weight）和通道（#channel）。

3通道图片的卷积运算与单通道图片的卷积运算基本一致。过程是将每个单通道（R，G，B）与对应的filter进行卷积运算求和，然后再将3通道的和相加，得到输出图片的一个像素值。

不同通道的滤波算子可以不相同。例如R通道filter实现垂直边缘检测，G和B通道不进行边缘检测，全部置零，或者将R，G，B三通道filter全部设置为水平边缘检测。

为了进行多个卷积运算，实现更多边缘检测，可以增加更多的滤波器组监测不同的特征。例如设置第一个滤波器组实现垂直边缘检测，第二个滤波器组实现水平边缘检测。这样，不同滤波器组卷积得到不同的输出，个数由滤波器组决定。

总结： $\left ( n\times n\times n_{c} \right )*\left ( f\times f\times n_{c} \right )=\left ( n-f+1\right )\times \left ( n-f+1\right )\times n_{c}{}'$

其中 $n_{c}$ 表示通道数， $n_{c}{}'$ 表示使用滤波器的数量

3.单层卷积神经网络

卷积神经网络的单层结构如下所示：

相比之前的卷积过程，CNN的单层结构多了激活函数ReLU和偏移量b。整个过程与标准的神经网络单层结构非常类似：

卷积运算对应着上式中的乘积运算，滤波器组数值对应着权重W[l]，所选的激活函数为ReLU。

我们来计算一下上图中参数的数目：每个滤波器组有3x3x3=27个参数，还有1个偏移量b，则每个滤波器组有27+1=28个参数，两个滤波器组总共包含28x2=56个参数。我们发现，选定滤波器组后，参数数目与输入图片尺寸无关。所以，就不存在由于图片尺寸过大，造成参数过多的情况。例如一张1000x1000x3的图片，标准神经网络输入层的维度将达到3百万，而在CNN中，参数数目只由滤波器组决定，数目相对来说要少得多，这是CNN的优势之一。

最后，我们总结一下CNN单层结构的所有标记符号，设层数为 $l$ 。