【Machine Learning, Coursera】机器学习Week5 Neural Networks: Learning

最新推荐文章于 2022-02-06 10:18:43 发布

原创最新推荐文章于 2022-02-06 10:18:43 发布 · 284 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文深入探讨了神经网络的代价函数及其偏导计算，包括逻辑回归代价函数的扩展、反向传播算法的应用、偏导计算的三个步骤以及正则项的处理。通过详细的数学表达和实例，解释了如何计算神经网络代价函数和其参数的偏导，旨在帮助读者理解神经网络优化的核心原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Neural Networks: Learning

基础知识回顾：https://blog.youkuaiyun.com/weixin_42395916/article/details/81099945
实际应用回顾：https://blog.youkuaiyun.com/weixin_42395916/article/details/81160314

根据前几周的内容我们知道，应用梯度下降法或者其他高级优化算法求解参数需要写出代码计算
1) $J(\Theta)$
2) $\frac{\partial}{\partial\Theta_{ij}^{l}}J(\Theta)$

本节介绍神经网络的代价函数及其偏导项的计算。

相关机器学习概念：
反向传播算法(backpropagation algorithm)

一、代价函数 Cost Function

这里写图片描述
本质上，神经网络是一种通过logistic模型，从旧特征中学习到新特征，经过一定层数的学习后最终输出分类结果的算法。因此，我们可以根据logistic回归的代价函数得到神经网络的代价函数。

逻辑回归的代价函数（含正则项）：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$

神经网络代价函数的表达与之类似，但由于神经网络分类结果是以单位列向量的形式输出的，计算代价函数时不仅需要对所有训练样本的cost求和，还要对每一类的cost求和。此外，正则项需要对每一层的除偏置项外的参数求和。

神经网络的代价函数（含正则项）：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k l o g (h Θ (x (i))) k + (1 - y (i) k) l o g (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ l j i) 2

$J(\Theta)=-\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}[y_k^{(i)}log(h_\Theta(x^{(i)}))_k+(1-y_k^{(i)})log(1-h_\Theta(x^{(i)}))_k]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_{l}}\sum_{j=1}^{s_{l+1}}(\Theta_{ji}^{l})^2$

其中， $(h_\Theta(x))_i$ 表示输出层的第i个输出结果， $h_\Theta(x)∈K$ .

易错点：正则项中并不包含偏置项 $(i,j = 0)$
$\\$

二、计算 $\frac{\partial}{\partial\Theta_{ij}^{l}}J(\Theta)$

神经网络代价函数的偏导计算比较复杂，需要用到反向传播算法(backpropagation algorithm)。偏导的计算分为三步：
1) 前向传播算法计算各层激励值
2) 反向传播算法计算各层激励值的误差
3) 求偏导
$\\$

（一）前向传播算法

*前向传播算法具体参见：https://blog.youkuaiyun.com/weixin_42395916/article/details/81099945

以一个训练样本为例，令输入层的激励值 $a^{(1)}=x$ ，运用前向传播算法得到每层的激励值 $a^{(l)}$ .
这里写图片描述
$\\$

（二）反向传播算法 Backpropagation Algorithm

线性回归和逻辑函数代价函数（不含正则项）求偏导结果形式均为

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\frac{\partial}{\partial\theta_j}J(\theta)=\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

括号内为计算值和实际值的误差。在神经网络算法中，将误差项记作 $\delta^{(l)}_j$ ，它捕捉了l层第j个神经节点激励值的误差。我们用反向传播算法计算它。反向传播算法先计算输出层的 $\delta$ ，然后计算上一层的 $\delta$ ，重复该过程直至第二层。

首先计算输出层的误差，显然，就是激励值减去实际值。用向量形式可写作

δ (4) = a (4) - y

$\delta^{(4)}=a^{(4)}-y$

接下来计算隐藏层的误差，计算方法见下图。根据sigmoid函数的性质， $g'(z^{(l)})=a^{(l)}.*(1-a^{(l)})$ ，所以有

δ (3) = (Θ (3)) T δ (4) . * a (3) . * (1 - a (3))

$\delta^{(3)}=(\Theta^{(3)})^T\delta^{(4)}.*a^{(3)}.*(1-a^{(3)})$

这里写图片描述

$\\$
易错点：不用计算输入层的误差，因为这是我们在训练集中观察到的值，所以不存在误差。
$\\$

（三） $\frac{\partial}{\partial\Theta_{ij}^{l}}J(\Theta)=D_{ij}^{(l)}$

将上述内容整合起来，下图是根据激励值和误差得到 $J(\Theta)$ 对 $\Theta^{(l)}_{ij}$ 求偏导的值 $D_{ij}^{(l)}$ 的详细流程（m个训练样本）.
完整的包含正则项的偏导数形式应为

D (l) i j = ⎧ ⎩ ⎨ ⎪ ⎪ 1 m \sum m i = 1 (e r r o r o f a c t i v a t i o n δ (l + 1) i) * (f e a t u r e v a l u e a (l) j) + λ m * (p a r a m e t e r v a l u e Θ l i j) 1 m \sum m i = 1 (e r r o r o f a c t i v a t i o n δ (l + 1) i) * (f e a t u r e v a l u e a (l) j) i f j \neq 0 i f j = 0

$\begin{align*} D_{ij}^{(l)}= \left \{ \begin{array}{l} \frac{1}{m}\sum_{i=1}^m(error\ of\ activation\ \delta^{(l+1)}_i)*(feature\ value\ a^{(l)}_j)+\frac{\lambda}{m}*(parameter\ value\ \Theta_{ij}^{l})\qquad &if\ j≠0 \\ \frac{1}{m}\sum_{i=1}^m(error\ of\ activation\ \delta^{(l+1)}_i)*(feature\ value\ a^{(l)}_j)\qquad &if\ j=0 \end{array} \right . \end{align*}$

Step1: 初始化
给定m个训练样本，令 $\Delta_{ij}^{(l)}=0$ ，因此 $\Delta^{(l)}$ 是一个零矩阵。它用于之后偏导数的计算。

Step2: 计算 $\sum_{i=1}^m(error\ of\ activation)*(feature\ value)$
对训练样本t=1:m执行以下循环（下图中为i=1:m，但这个i和下面的角标i无关，有歧义，故改成t）:
1. 令 $a^{(1)}:=x^{(t)}$
2. 执行前向传播算法得到每层的激励值 $a^{(l)}$
3. 根据 $y^{(t)}$ ，计算 $\delta^{(L)}=a^{(L)}-y^{(t)}$
4. 根据 $\delta^{(l)}=(\Theta^{(l)})^T\delta^{(l+1)}.*a^{(l)}.*(1-a^{(l)})$ ，计算 $\delta^{(L-1)},\delta^{(L-2)},...\delta^{(2)}$
5. 累积偏导数项， $\Delta_{ij}^{(l)}:=\Delta_{ij}^{(l)}+a^{(l)}_j\delta^{(l+1)}_i$ . 向量化表示为 $\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$ ，它是偏导数矩阵