深度学习_07_4_随机梯度下降_反向传播算法&函数优化实战

本文链接：https://blog.youkuaiyun.com/bill2766/article/details/115412287

07_4_随机梯度下降_反向传播算法&函数优化实战

多层感知机梯度(反向传播算法)

Chain rule

通过链式法则，转换为对 $O^1_K$ 和 $O^2_K$ 的求导，一个一个求解。

在这里插入图片描述

Multi-output Perception(多输出感知机)

对 $w_{jk}^1$ 的导数只和

当前的相关联输出节点的值（ $O_K$ ）（输出节点）
输入节点 $x^0_j$

有关。

在这里插入图片描述

Multi-Layer Perception

利用多输出感知机扩展成多层的感知机。意味着前面还有节点，蓝色部分不再是 $x^0$ 层，而是中间的层，称之为 $x^j$ 层。对 $x^j$ 层前面遮挡，就和多输出感知机讲的一样，把 $O^J_j$ 理解为 $x^0$ ，导数解照样是先前一样：

$\frac{\delta E}{\delta w_{jk}} = (O_k - t_k)O_k (1-O_k)O^J_j$

这个是隐藏层的输出 $O^J_j$ ，因为 $x^J_j$ 还要 $\sigma$ 激活后才是下一层的输入。

在这里插入图片描述

现在开始推导最终的loss对倒数第2层的 $w_{ij}$ 的公式的推导过程， $\frac{\delta E}{\delta W_{ij}}$ :

第一步（简化公式）：

对于 $O_k - t_k)O_k (1-O_k)$ ，我们设它为 $\delta_K^K$ ，一共有K个，下标从0~K-1。
$\frac{\delta E}{\delta w_{jk}} = (O_k - t_k)O_k (1-O_k)O^J_j$
前面3个只跟 $O_K$ 节点有关系，代表了 $O_K$ 节点的某种属性，它是 $O_K$ 和 $t_K$ 的线性组合，就是一个多项式。将其命名为 $\delta ^K_K$ (delta K)。为了简化 $\frac{\delta E}{\delta w_{jk}}$ 的公式。
$\delta ^K_K O^J_j$
这一部分输出节点 $O_k$ 和label（ $t_k$ ）的组合，多项式的运算，形成 $\delta_k$ ，因此对于这层上一共有K个节点的话，就有k个 $\delta _k$ ，即
$\left[ \begin{matrix} \delta_0^k \\ \delta_1^k \\ \delta_2^k \\ ... \\ \delta_{K-1}^k \\ \end{matrix} \right]$
$\delta_K^K$ 可以简化公式，并且直接可以通过前项计算得到，因为 $O_k$ 和 $t_k$ 都是知道的。我们再取上一层 $O^J_j$ 的变量，就可以直接得到矩阵的数组：
$\left[ \begin{matrix} w_{00} w_{01}\\ ... \end{matrix} \right]$
这个矩阵数组就代表了这一层的所有连接的偏微分（梯度信息），通过这个矩阵就可以直接更新这一层输出层的 $w_{jk}$ 。

在这里插入图片描述

第二步：

现在已经知道 $\frac{\delta E}{\delta W^K}$ 上每一个的偏微分，现在求 $\frac{\delta E}{\delta W^J}$ 也就是对倒数第2层的偏微分。如果知道倒数第2层是跟这一层有迭代关系的话，那么前面一层（假设 $W^I$ ）也有一种迭代关系，可以一次次迭代得到。

首先把E展开
$\frac{E}{W_{ij}} = \frac{\delta}{\delta W_{ij}} \frac{1}{2} \sum_{k\in K} (O_k - t_k)^2$
因为 $O_k$ 包含了ij的变量，因此，
$\sum_{k\in K} (O_k - t_k) \frac{\delta}{\delta W{ij}} O_k$
然后继续把 $O_k$ 展开，它是 $x_k$ 经过激活函数后的值，
$\sum_{k\in K} (O_k - t_k) \frac{\delta}{\delta W{ij}} \delta(x_k)$
将 $\sigma$ 展开，
$\sum_{k\in K} (O_k - t_k) \delta(x_k)(1-\delta(x_k)) \frac{\delta x_k}{\delta W{ij}}$
展开 $\frac{\delta x_k}{\delta W{ij}}$ ， $x^K_k$ 在黄色部分， $w^{J}_{ij}$ 为蓝色虚线部分。这里是使用链式法则的核心部分。

Wij先变成中间变量Oj，再变成xk，因此引进中间变量，
$\sum_{k\in K} (O_k - t_k) O_k(1-O_k) \frac{\delta x_k}{\delta O_j} \frac{\delta O_j}{\delta W_{ij}}$
因此先从xk跳到Oj再跳到wij。

看图，j是k的前一行。

$\frac{\delta x_k}{\delta O_j}$ ， $x_k = \sum O_i W_{ik} \quad i\in [0,j]$ ，只有i=j的时候，这两个链接才有直接的关系，因此 $\frac{\delta x_k}{\delta O_j} = w_{jk}$
$\sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk} \frac{\delta O_j}{\delta W_{ij}}$
现在求 $\frac{\delta O_j}{\delta W_{ij}}$ ，因为 $O_j$ 是 $W_{ij}$ 的线性求和，把 $\sigma$ 写出来，

把 $\frac{\delta O_j}{\delta W_{ij}}$ 先提到之前来，后面的部分 $\sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk}$ 表示前面的一些属性，也就是黄色部分的属性，
$\frac{\delta O_j}{\delta W_{ij}} \sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk}$
求 $\frac{\delta O_j}{\delta W_{ij}}$ ，因为 $O_j$ 是 $W_{ij}$ 的线性求和，经过了 $\sigma$ 激活函数，因此变成
$O_j (1-O_j) \frac{\delta x_j}{\delta W_{ij}} \sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk}$
$\frac{\delta x_j}{\delta W_{ij}} $的偏微分等于$ O_i$。

在这里插入图片描述

所以，最终会得到，
$O_j (1-O_j) \quad O_i \quad \sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk}$
首先对 $W_{ij}$ 的求导，会跟前面的节点相关，叫 $O_i$ ；也跟后面的节点有关，叫 $O_j$ ；还有k，也就是之前的，所有的 $\delta_k 、 W_{jk}$ 有关系。

在这里插入图片描述

简写：
$\frac{\delta E}{\delta W_{ij}}= O_i O_j (1-O_j) \sum_{k\in K} \delta_k W_{jk}$
在这里插入图片描述

把式子和前面的W、 $\delta_k$ 关联起来：

首先，如果只有黄色的这一层的话，我们已经推导出：

$\frac{\delta E}{\delta w_{jk}} = (O_k - t_k)O_k (1-O_k)O^J_j$

$\frac{\delta E}{\delta w_{jk}} = \delta^K_k O^J_j$

也就是 $W_{jk}$ 的表达式只取决于输出(也是输入) $O^J_j$ 和黄色部分的 $\delta_k$ 。

在这里插入图片描述

现在打出前面的层，对前面的层求导，之前已经推导了，为：

$\frac{\delta E}{\delta W_{ij}} = O_i \quad O_j (1-O_j) \quad \sum_{k\in K} (O_k - t_k) O_k(1-O_k) W_{jk}$

第1段是灰色点的输入，第2段是蓝色（中间层）的输出，第3段是 $\delta_k$ 的求和。因为把 $O_k - t_k)O_k$ 叫做 $\delta_k$ ， $W_{jk}$ 只和 $O^J_j$ 和 $\delta_k$ 有关。由 $\frac{\delta E}{\delta w_{jk}}$ 的类比，可以把 $\frac{\delta E}{W_{ij}} = O_i \quad O_j (1-O_j) \quad \sum_{k\in K} \delta_k W_{jk}$ 的第2、3部分看做 $\delta^J_j$ ，它代表了这个梯度推导公式所有之前的信息，也就是当前层到最后一层（往右）的信息。

$\delta^J_j =O_j (1-O_j) \sum_{k\in K} \delta_k W_{jk}$

在这里插入图片描述

总结：

$\delta_k$ 定义为从当前节点（k层节点）开始，到最终输出层的梯度的传导信息。只要拿到了 $\delta_k$ 的信息，再获得 $O_j$ 就可以直接 $\frac{\delta E}{\delta W_{jk}}= O_j * \delta_k$ 。

同样，计算中间层，只需要 $\delta_j$ ，再得到上一层输出 $O_i$ ，因此 $\frac{\delta E}{\delta W_{ij}}= O_i * \delta_j$ ， $\delta_j$ 是当前节点的输出*（乘）上一层 $\delta_k$ 和 $W_{jk}$ 的式子。

这是一个迭代的过程，对于输出层 $\delta_k$ 可以直接求导，上一层的 $\delta_j$ 也可以一次求出， $\delta_j = O_j(1-O_j) \sum_{k\in K} \delta_k W_{jk}$ ，参数都已知。那么，前面的 $\delta_i$ 、 $\delta_n$ ……都可以求出。

就是先求出k层，再往前j，再往前i，再往前……

在这里插入图片描述

形象表示：先看输出层 $\delta_k$ 以及更新的梯度 $w_{jk}$ ……

在这里插入图片描述

Himmelblau函数优化(实战)

函数数学表达式：

$f(x,y) = (x^2+y-11) + (x+y^2-7)^2$

图形如下，4个角的最小值都是0

在这里插入图片描述

Minima(极小值点)

测试优化算法：

能不能找到最小值的解
参数的敏感性，不同的初始点会不会影响搜索的结果

在这里插入图片描述

Plot（画图）

函数的绘制，

#并行地生成一系列的坐标点，tf和np的meshgrid类似
X, Y = np.meshgrid(x,y)

在这里插入图片描述

Gradient Descent

求极小值，

在这里插入图片描述

具体实现

import numpy as np
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import pyplot as plt
import tensorflow as tf

def himmelblau(x):
    return (x[0] ** 2 + x[1] - 11) ** 2 + (x[0] + x[1] ** 2 -7) ** 2

x = np.arange(-6,6,0.1)
y = np.arange(-6,6,0.1)
print('x y range:',x.shape,y.shape)
#并行地生成一系列的坐标点，tf和np的meshgrid类似
X, Y = np.meshgrid(x,y)
print('X,Y maps:',X.shape,Y.shape)
Z = himmelblau([X,Y])

fig = plt.figure('himmelblau')
ax = fig.gca(projection='3d')
ax.plot_surface(X,Y,Z)
ax.view_init(60,-30)
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()

# 参数的初始化值对优化的影响不容忽视，可以通过尝试不同的初始化值，
# 检验函数优化的极小值情况
# [1., 0.], [-4, 0.], [4, 0.]
x = tf.constant([4., 0.])
# x = tf.constant([1., 0.])
# x = tf.constant([-4., 0.])
# x = tf.constant([-2,2])

for step in range(200):# 循环优化
    with tf.GradientTape() as tape: #梯度跟踪
        tape.watch([x]) # 记录梯度
        y = himmelblau(x) # 前向传播
    # 反向传播
    #这里猜测返回的应该是列表，因此要取[0]
    grads = tape.gradient(y,[x])[0]
    # 更新参数,0.01为学习率
    x -= 0.01 * grads
    # 打印优化的极小值
    if step % 20 == 19:
        print('step {}: x = {}, f(x) = {}'
              .format(step,x.numpy(),y.numpy()))