梯度下降法原理与实现详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00802/article/details/148664987

梯度下降法原理与实现详解

d2l-ko 한글 번역이 진행 중 입니다 | Dive into Deep Learning. With code, math, and discussions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2l-ko

引言

梯度下降法是深度学习中最基础也最重要的优化算法之一。本文将从数学原理到代码实现，全面解析梯度下降法的工作机制，帮助读者深入理解这一核心优化技术。

梯度下降的基本概念

梯度下降法是一种迭代优化算法，用于寻找可微函数的局部最小值。其核心思想是：沿着函数在当前点的梯度（或近似梯度）的负方向进行迭代搜索。

数学原理

对于连续可微函数f(x)，在x点附近的一阶泰勒展开为：

f(x + ε) ≈ f(x) + εf'(x)

当ε取负梯度方向且步长η足够小时，可以保证函数值下降：

f(x - ηf'(x)) ≈ f(x) - η[f'(x)]² < f(x)

实现步骤

初始化参数x和学习率η
计算当前点的梯度f'(x)
沿负梯度方向更新参数：x ← x - ηf'(x)
重复步骤2-3直到满足停止条件

学习率的影响

学习率η是梯度下降中最重要的超参数之一，它直接影响算法的收敛性和效率。

学习率过小

当η=0.05时，算法收敛速度明显减慢，需要更多迭代才能接近最优解。

学习率过大

当η=1.1时，参数更新步长过大，导致算法在最优解附近震荡甚至发散。

学习率选择建议

理想的学习率应该：

足够大以保证合理收敛速度
足够小以避免震荡或发散
可能需要进行网格搜索或自适应调整

多维梯度下降

对于多元函数f: ℝᵈ → ℝ，梯度下降的更新规则扩展为：

x ← x - η∇f(x)

其中∇f(x)是梯度向量，包含各维度的偏导数。

示例分析

以二维二次函数f(x₁,x₂)=x₁²+2x₂²为例：

梯度：∇f(x) = [2x₁, 4x₂]ᵀ
最优解在原点(0,0)
不同维度需要不同的学习率（预处理思想）

梯度下降的局限性

局部最小值问题

对于非凸函数，梯度下降可能收敛到局部最小值而非全局最小值。例如函数f(x)=x·cos(cx)有许多局部极小点。

收敛速度

标准梯度下降在最优解附近收敛速度较慢，特别是当不同维度的曲率差异较大时。

改进方法

牛顿法

利用二阶导数信息（Hessian矩阵）可以加速收敛：

x ← x - [∇²f(x)]⁻¹∇f(x)

优点：

在凸函数上收敛速度快（二次收敛）
自动确定各维度的最佳步长

缺点：

计算Hessian矩阵及其逆矩阵代价高
非凸函数中可能收敛到鞍点

预处理

通过近似Hessian矩阵的对角元素来调整各维度的学习率：

x ← x - η·diag(H)⁻¹∇f(x)

这种方法在深度学习优化器（如Adam）中有广泛应用。

代码实现示例

以下是梯度下降的Python实现，以f(x)=x²为例：

def f(x):  # 目标函数
    return x**2

def f_grad(x):  # 梯度函数
    return 2*x

def gd(eta, f_grad, steps=10):
    x = 10.0  # 初始值
    results = [x]
    for _ in range(steps):
        x -= eta * f_grad(x)
        results.append(x)
    return results