11、梯度下降与随机梯度下降：优化算法详解

最新推荐文章于 2025-11-07 09:34:23 发布

云朵来信

最新推荐文章于 2025-11-07 09:34:23 发布

阅读量45

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习入门指南文章标签：梯度下降随机梯度下降优化算法

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/151630295

深度学习入门指南专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

梯度下降与随机梯度下降：优化算法详解

1. 梯度下降基础

在机器学习中，梯度下降是一种常用的优化算法，用于寻找使损失函数最小化的参数值。为了更好地理解和实现梯度下降，我们需要了解一些基础概念。

1.1 偏置技巧

在设计矩阵中添加一列全为 1 的向量，可以将偏置项嵌入到权重矩阵中，从而简化评分函数。例如，原始评分函数可能为 (f(x_i, W) = Wx_i + b)，通过偏置技巧，我们可以将其重写为 (f(x_i, W) = Wx_i)，其中偏置项 (b) 被包含在权重矩阵 (W) 中。

以“Animals”数据集为例，我们处理的是 (32×32×3) 的图像，每个图像有 3072 个像素，即 (x_i) 是一个 ([3072×1]) 的向量。添加一列全为 1 的向量后，(x_i) 扩展为 ([3073×1]) 的向量，权重矩阵 (W) 也相应地从 ([3×3072]) 扩展为 ([3×3073])。这样，我们可以将偏置视为权重矩阵中的可学习参数，而无需单独跟踪。

下面是偏置技巧的示意图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A([原始权重矩阵和偏置向量]):::startend --> B(分离处理):::process
    C([嵌入偏置向量后的权重矩阵]):::startend -