梯度下降法

本文详细介绍了梯度下降法,从梯度的概念出发,分别讲解了单变量和多变量函数的梯度下降,包括梯度下降的公式。接着探讨了梯度下降原理,涉及步长、特征和损失函数等概念,并通过线性回归举例说明。此外,还讨论了全梯度下降、随机梯度下降、小批量梯度下降和随机平均梯度下降等其他梯度下降法的差异和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 梯度下降

 

梯度的概念

梯度是微积分中一个很重要的概念

  • 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率;
  • 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向;

  - > 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。
梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向

单变量函数的梯度下降

我们假设有一个单变量的函数 J(\theta) = \theta^2

函数的微分:J^\prime(\theta) = 2\theta

初始化,起点为:\theta^0 = 1

学习率:$\alpha = 0.4$

我们开始进行梯度下降的迭代计算过程:

\theta^0 = 1 \ \: \: \: \: \: \: (1)
\theta^1 = \theta^0-\alpha * J^\prime(\theta^0) = 1-0.4*2=0.2 \ \ \, \, \, \, \, \, \, (2) \\ 

\theta^2 = \theta^1-\alpha*J^\prime(\theta^1) = 0.04\ \; \! \: \: \: \: \: \: (3)

\theta^3 = 0.008 \ \: \: \: \: \: \: \: \: (4)

\theta^4 = 0.0016 \: \: \: \: \: \: \, (5)
如图,经过四次的运算,也就是走了四步,基本就抵达了函数的最低点,也就是山底

 多变量函数的梯度下降

我们假设有一个目标函数 :$J(\theta) = \theta_{1}^{2} + \theta_{2}^{2}$

现在要通过梯度下降法计算这个函数的最小值。我们通过观察就能发现最小值其实就是 (0,0)点。但是接下来,我们会从梯度下降算法开始一步步计算到这个最小值!
我们假设初始的起点为: $\theta^{0} = (1, 3)$

初始的学习率为:$\alpha = 0.1$

函数的梯度为:$\Delta J(\theta) =< 2\theta_{1} ,2\theta_{2}>$

进行多次迭代:\Theta^{i+1}= \Theta^i-\alpha\Delta J(\Theta^{i})\\

梯度下降的公式

\Large \theta_{i+1} = \theta_{i} - \alpha\frac{\partial}{\partial\theta_{i}}J(\theta)

1、α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离

  • 控制参数不要走太快,错过了使损失函数取最小值的点。同
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值