机器学习李宏毅 L13-Deep learning简介及反向传播推导

最新推荐文章于 2025-04-02 19:15:55 发布

OKgagaga

最新推荐文章于 2025-04-02 19:15:55 发布

阅读量629

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/guyanbeifei/article/details/79190253

版权

机器学习专栏收录该内容

28 篇文章

订阅专栏

Deep learning的历史

Neural network简述

如下图所示，NN也分为三个步骤，第一步是定义一个神经网络，这里对于神经网络而言，其权重w和偏置bias是参数，每一层都有自己特殊的参数。定义好这些参数后，输入一个变量后，可以输出一组变量。因此神经网络也可以看成是一个函数。

一种常见的神经网络结构为 fully connect feedforward network。如下图所示。输入的地方称为 input layer，该层并没有神经元作用，只是一个输入；输出层称为output layer；其余称为hidden layer。

由于存在多个并排的神经元，因此可以通过矩阵运算表示更加方便，整体参数包括了 $W_1,b_1,W_2,b_2,...,W_L,b_L$ ，其运算如下式所示。存在大量的矩阵运算，因此GPU加速较为明显。

y = f (x) = σ (W L \cdot σ (W L - 1 \cdot . . . \cdot σ (W 1 \cdot x + b 1) + . . . + b L - 1) + b L)

$y=f(x)=\sigma(W_L \cdot \sigma (W_{L-1} \cdot...\cdot \sigma(W_1 \cdot x+b_1)+...+b_{L-1})+b_L)$
对于隐藏层，本质是进行feature extractor，隐藏层输出可以看作是进行feature变换后的新feature，Output layer可以看作是multi-class classifier，因此最后一层会加上softmax函数。一个例子是手写辨识，如下图所示，输入是一个256维的向量，输出为一个10维的向量，中间的定义对应着神经网络的结构（这是需要仔细设计的，hidden layer的层数和每一个layer的neuron个数），中间的hidden layer需要靠试错和经验来进行。 （传统的machine learning重点在于feature energing，而deep learning的重点在于设计神经网络结构）

一些常见的问题如下：

第二步，定义neural network的好坏

对于预测得到的值，采用交叉熵的方式定义评价函数（cross entropy）。对于每一组data的cross entropy进行累加，得到最终的评价函数。因此，神经网络的目标是找到一组参数（包括各层的） $\theta^{\ast}$ 去最小化total loss。

第三部，如何找到最佳的参数

使用的方法是gradient descent，唯一的区别是函数变得比较复杂。可以采用backpropogation方法计算梯度下降。如何计算，可以参考1。

任何一个连续函数， $f:R^N \rightarrow R^M$ ，可以使用一个hidden layer表示。可以参考2flat神经网络推导。

Back propogation推导

首先，定义给定的training set，包含R组，然后对于R组数据，定义评价函数。对于评价函数进行梯度下降求解，可以得到迭代的变量。

如何计算 $\partial C^r/\partial w_{i,j}^l$ ， $w_{i,j}^l$ 指的是(l-1)到l层连接的某一个weight，具体是第(l-1)层第j个神经元到第l层第i个神经元的权重。可以将该偏微分分解为计算两项乘积，

首先考虑l>1，即求解hidden layer的情况，则

\partial z l i \partial w l i , j = a i - 1 i, j

$\frac{\partial z_i^l}{\partial w_{i,j}^l}=a_{i,j}^{i-1}$
如果l=1，对应输入层，则

\partial z 1 i \partial w 1 i , j = x r j

$\frac{\partial z_i^1}{\partial w_{i,j}^1}=x_{j}^{r}$

接下来，求解第二项 $\partial C^r/\partial z_{i}^l$ 记为 $\delta_i^l$ 。对于同一个Layer的 $\delta_i^l$ ，可以定义向量 $\delta^l$ 。最终，可以通过 $\delta^L \rightarrow \delta^{L-1} \rightarrow ... \rightarrow \delta^{1}$ 得到各个参数的更新部分。