Optimization之GD,Newton Method

本文探讨了机器学习中优化的重要性,主要聚焦于梯度下降(GD)和牛顿法。文章介绍了GD的基本概念,包括梯度、Laplacian Operator和Hessian Matrix,并讨论了GD的学习率问题。接着,详细讲解了牛顿法及其对强二次型函数的快速收敛特性,同时也提到了其对非二次型函数的局限性。此外,还提及了动量法、Adagrad、RMSProp和Adam等优化算法,以及它们在处理不同问题上的优势和应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明出处: http://blog.youkuaiyun.com/c602273091/article/details/79111771

机器学习或者是深度学习中涉及了不少优化理论,那么问题来了,在机器学习中,它优化的目标是什么?它是如何进行优化的?为什么进行这种优化?这种优化的好处以及坏处?以及这种优化方法适合什么情况?最近在上CMU 18-660 Optimization的课程,一开始看的Convexity看得我一脸懵逼,老师讲得慢,今年这个新来的老师把phd的10-725的课程搬了过来,它已经不是以前的水课了。所以我开始学习优化理论,从简单的GD和Newton Method入手感受一下【6】。

Learning可以说是机器学习的核心,而学习的过程的过程需要用到optimization这个工具。这篇文章主要是介绍了梯度下降和牛顿迭代法,顺带着用几句话介绍了牛顿迭代法的改进以及矩阵分解。

gradient descent

这里写图片描述

上面的式子结果是什么?如果没有理解透GD的话,以上这个可能都会算错。搞混了Lapalace Operator和Hessian Matrix也会搞错。

第一个求的是梯度,那么什么是梯度?梯度就是当前值往变量所在增长方向变化最快的数值,梯度是一个响亮,函数中有几个变量,那么梯度就是几维的向量。所以结果就是一个向量:(忘记了常用导数求导公式【15】)
[2x+cos(y),xsin(y)]

第二个是Laplace operator,不是Hessian Matrix,Hessian Matrix在2的正下方会标出变量,等会儿会说到。所以这个Laplace Operator的结果就是:(如果忘记了各种算子,请看【16】)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值