梯度下降的进一步学习---李宏毅《机器学习》笔记04

本文探讨了深度学习中优化学习率的重要性,介绍了自适应学习率的Adagrad算法及其矛盾,并阐述了随机梯度下降法的应用。同时,解释了特征缩放的原因和方法,强调其在训练过程中的作用。文章还提及了梯度下降的理论基础,为后续深入学习提供理论支持。


一、调整learning rate

1.1 自适应学习率

  1. 刚开始,初始点距离最低点比较远,所以可以采用大一点的学习率
  2. 逐渐接近最低点时减少学习率
  3. 因此可以通过一些因子来减少学习率
  4. 例如 η t = η t / ( t + 1 ) 1 / 2 \eta^t=\eta^t/(t+1)^{1/2} ηt=ηt/(t+1)1/2

1.2 Adagrad算法

  1. 不同参数需要不同的学习率
  2. 每个参数的学习率都把它除以之前微分的均方根
  3. 比如,普通的梯度下降: w t + 1 = w t − η t g t w^{t+1}=w^t-\eta^tg^t wt+1=wtηtgt η t = η t / ( t + 1 ) 1 / 2 \eta^t=\eta^t/(t+1)^{1/2} ηt=ηt/(t+1)1/2 g t = ∂ L ( θ t ) / ∂ w g^t=\partial L(\theta^t) / \partial w gt=L(θt)/w
  4. 使用Adagrad: w t + 1 = w t − η t g t / σ t w^{t+1}=w^t-\eta^tg^t/\sigma^t wt+1=wtηtgt/σt
    σ t \sigma^t σt为该参数所有微分的均方根,因此对于每个参数都不一样

1.3 Adagrad算法存在的矛盾?

  1. 在 Adagrad 中,当梯度越大的时候,步伐应该越大,但下面分母又导致当梯度越大的时候,步伐会越小。所以如果踏出去的步伐和微分成正比,它可能是比较好的。因此得出结论:梯度越大,离最低点的距离越远。这个结论在多个参数的时候就不一定成立了。
  2. 最好的步伐应该是一次微分/二次微分
  3. 得到adagrad进一步的解释
    在这里插入图片描述

二、随机梯度下降法

  1. 随机挑选一个例子来计算loss函数,赶紧更新参数
    在这里插入图片描述

三、特征缩放

3.1 为什么要特征缩放?

  1. 个人认为可以按归一化理解,消除量纲的影响
    在这里插入图片描述

3.2 怎么做缩放?

  1. 例子,类似标准化
    在这里插入图片描述

四、梯度下降的理论基础

这部分挖个坑,回头再更

下载前可以先看下教程 https://pan.quark.cn/s/a4b39357ea24 SSM框架,涵盖了Spring MVC、Spring以及MyBatis这三个框架,在Java领域内作为构建Web应用程序的常用架构而备受青睐,特别是在电子商务购物平台的设计与实现过程中展现出极高的应用价值。 这三个框架各自承担着特定的功能角色,通过协同运作来达成高效且灵活的业务处理目标。 Spring MVC作为Spring体系结构中的一个关键部分,主要致力于处理HTTP请求与响应,并推行模型-视图-控制器(MVC)的设计模式。 其运作机制中,DispatcherServlet扮演着前端控制器的角色,负责接收HTTP请求,并将其依据请求映射至相应的Controller处理方法。 在Controller执行完业务逻辑后,会将处理结果传递给ModelAndView对象,随后由ViewResolver将其解析为具体视图进行呈现。 Spring MVC还具备数据绑定、验证以及国际化等附加功能,这些特性显著提升了开发工作的效率以及代码的可维护程度。 Spring框架则是一个综合性的企业级应用开发框架,其核心能力包含依赖注入(DI)、面向切面编程(AOP)以及事务管理等关键特性。 DI机制使得开发者能够借助配置文件或注解手段来管理对象的生成与依赖关联,从而有效降低组件之间的耦合性。 AOP技术则适用于实现诸如日志记录、权限管理这类跨领域的功能需求,有助于使代码结构更为清晰。 Spring在事务管理方面提供了编程式和声明式两种处理途径,确保了数据操作过程遵循原子性与一致性原则。 MyBatis则是一个轻量级的数据库访问层框架,其特点在于将SQL语句与Java代码进行分离,并支持动态SQL的编写。 开发者可以在XM...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值