李宏毅机器学习笔记2:Gradient Descent

本文探讨了梯度下降法在寻找损失函数最小值时的应用,包括如何调整学习率、Adaptive Learning Rates如Adagrad和Stochastic Gradient Descent的特点。还提到了特征缩放对优化的影响以及梯度下降可能面临的局部最优问题。泰勒展开式用于近似求解最值,但需注意其局限性。

梯度下降

  • 求θ1, θ2使损失函数最小。
  • 梯度下降方向:沿着等高线的法线方向。
    在这里插入图片描述

梯度下降要点

1. 调整你的学习率

  • 使损失函数越来越小
  • 在这里插入图片描述Adaptive Learning Rates

2.Adaptive Learning Rates

2.1 Adagrad

在这里插入图片描述
等价于在这里插入图片描述
因为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(所有导数的平方的均值,再开根号)

  • 在这里插入图片描述造成反差的效果
    在这里插入图片描述
    在这里插入图片描述

2.2 Stochastic Gradient Descent

  • 一次只使用一个样本进行梯度下降
  • 更快
  • 在这里插入图片描述
    在这里插入图片描述

3 Feature Scaling

  • 让不同的特征属性投影到相同的范围内(均一化)
  • 均一化之后,梯度下降w的选取要容易很多

在这里插入图片描述

梯度下降推导

  • 泰勒展开式
  • 给定一个初始位置和范围,就能找到这个范围内的最小值
    在这里插入图片描述

局限

梯度下降很可能只是局部最优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值