神经网络与卷积神经网络-优快云博客

第一部分：神经网络

我们认识到的神经元
这里写图片描述
到输入输出系统的转变

这里写图片描述

这里描述的神经系统的优点在于，我们不需要去了解我追求的输入X与输出Y之间的内部联系，我只需要通过大量的样本训练来获得合适的权值即可。

而深度学习的目的是给定一些样本点，用合适的曲线揭示这些样本点随着自变量的变化关系。不过样本点不再限定为（x，y）点对。而是可以由向量、矩阵等等组成的广义点对（x,y）。此时，（x，y）之间的关系十分复杂，不太可能用一个简单函数表示（简单函数：包括初等函数、较简单的对应映射、能用较简单的概率分布函数表示出来），而多层神经网络可以表示这种关系。因而，多层神经网络的本质就是一个多层复合的函数。

我们使用圆圈来表示神经网络的输入，标上“＋1”的圆圈被称为偏置节点，也就是截距项。神经网络最左边的一层叫做输入层，最右的一层叫做输出层（本例中，输出层只有一个节点）。中间所有节点组成的一层叫做隐藏层，因为我们不能在训练样本集中观测到它们的值。同时可以看到，以上神经网络的例子中有3个输入单元（偏置单元不计在内），3个隐藏单元及一个输出单元。

我们用nl来表示网络的层数，本例中nl=3，我们将第l层记为Ll，于是L1是输入层，输出层是Ln。本例神经网络有参数这里写图片描述，其中（下面的式子中用到）是第l 层第 j 单元与第 l+1 层第 i 单元之间的联接参数（其实就是连接线上的权重，注意标号顺序）， bi(l) 是第 l+1 层第 i 单元的偏置项。因此在本例中，，。注意，没有其他单元连向偏置单元(即偏置单元没有输入)，因为它们总是输出+1 。同时，我们用 sl 表示第 l 层的节点数（偏置单元不计在内）。

我们用这里写图片描述表示第 l 层第 i 单元的激活值（输出值）。当 l=1时，，也就是第 i 个输入值（输入值的第 i 个特征）。对于给定参数集合，我们的神经网络就可以按照函数来计算输出结果。本例神经网络的计算步骤如下：

这里写图片描述

反向传播算法

求梯度：按照之前的思路，我们最终的目标是获得一组好的参数，一般是采用成本函数作为目标函数。然后，训练目标就是通过不断调整Wij来是的cost值达到最小。cost函数也可以看成是由所有待求权值Wij为自变量的复合函数，且基本是非凸。在实际中发现，采用梯度下降法可以有效的求解最小化cost函数的问题。即要通过loss（f(x)，YGT）= loss(ω)，要使二者尽可能接近。
梯度下降：需要给定一个初始点，并求出该点的梯度向量，然后以负梯度方向为搜索方向，以一定的步长进行搜索，从而确定下一个迭代点，再计算该新梯度方向，如此重复直到cost收敛。