随机梯度下降及其在学习任务中的应用与支持向量机基础
在机器学习领域,随机梯度下降(SGD)是一种强大的优化算法,同时支持向量机(SVM)也是非常实用的学习工具。下面将详细介绍随机梯度下降的多种变体、其在学习任务中的应用,以及支持向量机的相关基础概念。
随机梯度下降的变体
随机梯度下降有多种变体,每种变体都旨在优化算法的性能和适用性。
- 添加投影步骤
- 在之前的分析中,要求 $w^{\star}$ 的范数至多为 $B$,即 $w^{\star}$ 在集合 $H = {w : |w| \leq B}$ 中。但在梯度的反方向(或其期望方向)上进行的步骤可能会使 $w$ 超出这个范围,甚至不能保证 $\bar{w}$ 满足该条件。
- 为解决此问题,添加投影步骤,采用两步更新规则:
- $w(t + \frac{1}{2}) = w(t) - \eta v_t$
- $w(t + 1) = \arg\min_{w \in H} |w - w(t + \frac{1}{2})|$
- 投影步骤将 $w$ 的当前值替换为 $H$ 中最接近它的向量,保证了 $w(t) \in H$ 对所有 $t$ 成立,且由于 $H$ 是凸集,也意味着 $\bar{w} \in H$。同时,基于投影引理(Lemma 14.9),添加投影步骤后的 SGD 分析保持不变。
超级会员免费看
订阅专栏 解锁全文
1668

被折叠的 条评论
为什么被折叠?



