多层感知器训练过程导论

最新推荐文章于 2023-12-13 22:21:18 发布

hustqb

最新推荐文章于 2023-12-13 22:21:18 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

21 篇文章

订阅专栏

摘自《机器学习导论》

训练过程

改善收敛性

梯度下降具有多种优点。它简单，它是局部的，即权重的改变只是用前后突出单元和误差（适合向后传播）的值。当使用在线训练时，它不需要存储训练集，并且可以自适应学习任务的变化。但是，就自身而言，梯度下降收敛很慢。当学习时间很重要时，可以使用更复杂的优化方法。有两种频繁使用的优化技术，可以显著改善梯度下降的性能。

动量

令 $w_i$ 为多层感知器任意层中的权重，包括偏倚。在每次参数更新时，连续的 $\Delta w_i^t$ 可能很不相同以致出现摆动，减缓收敛。t为时间指数，是批量学习的周期数和在线学习的迭代次数。基本想法是在当前的改变中考虑上一次的更新，去移动平均，好像因上次更新而存在的动量(momentum):

Δ w t i = - η \partial E t \partial w i + α Δ w t - 1 i

$\Delta w_i^t = -\eta \frac {\partial E^t}{\partial w_i} + \alpha \Delta w_i^{t-1}$ 通常，a在0.5-1.0之间取值。当时用在线学习时，这种方法特别有用。我们将得到平均和光滑收敛轨迹的效果。缺点是需要额外存储过去的权重。

自适应学习率

在梯度下降中，学习因子 $\eta$ 决定参数的该变量。它通常在0.0-1.0之间取值，大部分情况小雨或等于0.2。为了更快收敛，可以让它自适应。学习开始时它保持较大，学习减慢时它也减小：

Δ η = {+ α - b η i f E t + τ < E t e l s e

$\Delta \eta = \left\{\begin{matrix} +\alpha & \ \ \ \ \ \ \ \ \ \ \ if E^{t+\tau}<E^t \\ -b\eta & else \end{matrix}\right.$ 这样，如果训练集上的误差减小，则

ηη $\eta$ 增加一个常量；如果误差增大，则

ηη $\eta$ 减小。由于E可能从一个周期到另一个周期震荡，所以最好用过去几个周期的平均值作为

EtEt $E^t$ 。

过分训练

随着训练周期的增加，训练机上的误差降低，但是当超过某一点时，验证集上的误差开始增加。
由于非线性，误差函数可能有多个极小，而梯度下降收敛于最近的极小。为了能够评估期望的误差，通常以不同的初始权重开始。

构造网络

在某些应用中，我们可能相信输入具有局部结构。此时，再设计MLP时，并不是将隐层单元连接到所有输入单元，因为并非所有的输入都是相关的。另外，我们定义隐藏单元，它在输入空间上定义一个输入窗口，并且仅与输入的一个小的局部子集相连接。这样做减少了连接数，从而减少了自有参数的数目。
同时，我们可以通过圈中共享(weight sharing)进一步减少参数的数目。