人工神经网络基础-优快云博客

1 非线性假设

前几章的学习中，我们对线性回归和逻辑回归有了一个大概的认知，但是在特征非常多的情况下，这两种方法都会存在严重的问题，那就是运算的负荷会变得非常大。

假设仅仅考虑二次项的情况，在极端情况下，设存在100个特征，最终会有5000个项，并且二次项增加的速率是 $n^{2}$ ，不仅如此，由于项数过多，甚至会出现过拟合问题，因此，我们需要一种新方法来解决这个问题，也就是人工神经网络。

2 人工神经网络

1 原理

人脑是现今为止人类所知的最神奇的学习机器，在解决复杂的机器学习问题时人类自然而然的会想到模拟人脑的原理创造出一种算法——人工神经网络，人工神经网络于二十世纪八九十年代兴起，但由于当时计算机性能有限，因此直到近年来才大规模兴起。下面我们将从生物学上的神经元开始，介绍人工神经网络的数学模型：

2 模型展示Ⅰ

上图是生物学上的神经元模型，我们使用逻辑单元来模拟神经元：

上图中 $x_{1}x_{2}x_{3}$ 代表输入神经树突，中间的黄色圆圈代表细胞核，最上面的 $x_{0}$ 通常被称作偏置单元，一般置为1，而Sigmod函数一般被称作激活函数，相应的参数在神经网络中被称作权重。

下面我们将这些逻辑单元按不同层级组成神经网络，以下图为例：

图中第一层是输入层，用来输入特征，第二层被称为隐藏层，之所以被称为隐藏层，是因为它的值在训练集中无法得知，既非x也非y，最后一层被称为输出层，输出假设的最终结果。最后，在每层都增加一个偏差单位。

为了方便描述，下面引入一些记号：

$a_{i}^{(j)}$ 是第j层的第i个激活项，即一个具体神经元计算并输出的值， $\theta^{(j)}$ 是从J层映射到第J+1层的权重矩阵，其尺寸规定为行数为第J+1层的激活单元数量，列数为第J层的激活单元数量+1。在上图中进行的讨论只使用了一个训练实例，为了得到模型我们需要大量的训练样例。