梯度下降法详解 笔记

梯度下降法详解 笔记

梯度下降法 Gradient descent algorithm
在这里插入图片描述
θ t + 1 = θ t − α • g \theta^{t+1}=\theta^{t}-\alpha • g θt+1=θtαg
α \alpha α : 学习效率数字 (learning rate) 用来控制梯度下降时,
函数下降的速度。 α \alpha α越大梯度下降越迅速, α \alpha α越小下降缓慢。

If α \alpha α is too small , gradient descent can be slow.
如果 α \alpha α太小,梯度下降会非常慢。
If α \alpha α is too large, gradient descent can overshoot the minimum.
It may fail to converge, or even diverge.
如果 α \alpha α太大,可能越过最小值。 θ \theta θ可能无法收敛或者发散。

                                 如 果 α 太 小 , 梯 度 下 降 会 非 常 慢 。 如果\alpha太小,梯度下降会非常慢。 α
在这里插入图片描述
                    如果 α \alpha α太大,可能越过最小值。 θ \theta θ可能无法收敛或者发散。
在这里插入图片描述

θ t + 1 = θ t − α • g \theta^{t+1}=\theta^{t}-\alpha • g θt+1=θtαg
变 化 ⟹ 迭 代 变化\Longrightarrow迭代
g : 是导数 (梯度) ,每次迭代都会变化。
随着迭代次数的增加,导数g(切线斜率) 会越来越小,
当到达最低点则不需要再另外减少 α \alpha α
As we approach a local minimum,
gradient descent will automatically take smaller steps.
So, no need to decrease α \alpha α over time.



梯度下降流程

1.初始化 θ \theta θ     w 0 . . . w n w_{0}...w_{n} w0...wn (初始化n+1个值)

2. while(! g 0 . . . g n g_{0}...g_{n} g0...gn == 0){ #当函数收敛时, g 0 . . . g n g_{0}...g_{n} g0...gn== 0
        求 gradient (梯度)
         θ t + 1 = θ t − α • g \theta^{t+1}=\theta^{t}-\alpha • g θt+1=θtαg
    }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值