20、随机梯度下降算法详解

read5

于 2025-10-15 15:59:20 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习：从理论到实践文章标签：随机梯度下降 SGD GD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/read5/article/details/154560530

机器学习：从理论到实践专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

随机梯度下降算法详解

1. 学习目标与传统方法回顾

学习的目标是最小化风险函数 (L_D(h) = E_{z \sim D} [\ell(h,z)])，但由于分布 (D) 未知，我们无法直接最小化该风险函数。此前，我们讨论过基于经验风险的学习方法，具体步骤如下：
1. 采样一个训练集 (S)。
2. 定义经验风险函数 (L_S(h))。
3. 学习者根据 (L_S(h)) 的值选择一个假设。例如，经验风险最小化（ERM）规则告诉我们在假设类 (H) 中选择使 (L_S(h)) 最小的假设。或者，在正则化风险最小化中，我们选择一个能同时最小化 (L_S(h)) 和正则化函数的假设。

2. 随机梯度下降（SGD）概述

随机梯度下降（SGD）是一种不同的学习方法。我们聚焦于凸学习问题，将假设表示为来自凸假设类 (H) 的向量 (w)。在 SGD 中，我们尝试使用梯度下降过程直接最小化风险函数 (L_D(w))。

梯度下降是一种迭代优化过程，在每一步中，我们沿着当前点处要最小化函数的负梯度方向迈出一步来改进解。然而，由于我们不知道分布 (D)，也就不知道 (L_D(w)) 的梯度。SGD 通过允许优化过程沿着随机方向迈出一步来解决这个问题，只要该方向的期望值是负梯度即可。

SGD 在凸学习问题上相对于正则化风险最小化学习规则的优势在于，它是一种高效的算法，可以用几行代码实现，并且具有与正则化风险最小化规则相同的样本复杂度。SGD 的简单性还使我们能够在无法应用基于经验风险的方法的情况下使用它。

3. 梯度下降（GD）算法

3.1 GD 算法介绍

在

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。