随机梯度下降算法详解
1. 学习目标与传统方法回顾
学习的目标是最小化风险函数 (L_D(h) = E_{z \sim D} [\ell(h,z)]),但由于分布 (D) 未知,我们无法直接最小化该风险函数。此前,我们讨论过基于经验风险的学习方法,具体步骤如下:
1. 采样一个训练集 (S)。
2. 定义经验风险函数 (L_S(h))。
3. 学习者根据 (L_S(h)) 的值选择一个假设。例如,经验风险最小化(ERM)规则告诉我们在假设类 (H) 中选择使 (L_S(h)) 最小的假设。或者,在正则化风险最小化中,我们选择一个能同时最小化 (L_S(h)) 和正则化函数的假设。
2. 随机梯度下降(SGD)概述
随机梯度下降(SGD)是一种不同的学习方法。我们聚焦于凸学习问题,将假设表示为来自凸假设类 (H) 的向量 (w)。在 SGD 中,我们尝试使用梯度下降过程直接最小化风险函数 (L_D(w))。
梯度下降是一种迭代优化过程,在每一步中,我们沿着当前点处要最小化函数的负梯度方向迈出一步来改进解。然而,由于我们不知道分布 (D),也就不知道 (L_D(w)) 的梯度。SGD 通过允许优化过程沿着随机方向迈出一步来解决这个问题,只要该方向的期望值是负梯度即可。
SGD 在凸学习问题上相对于正则化风险最小化学习规则的优势在于,它是一种高效的算法,可以用几行代码实现,并且具有与正则化风险最小化规则相同的样本复杂度。SGD 的简单性还使我们能够在无法应用基于经验风险的方法的情况下使用它。
3. 梯度下降(GD)算法
3.1 GD 算法介绍
在
超级会员免费看
订阅专栏 解锁全文
672

被折叠的 条评论
为什么被折叠?



