11、深度学习中寻找函数最小值的算法解析

最新推荐文章于 2025-11-25 14:31:30 发布

devops8pract

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的数学基石文章标签：深度学习函数最小值 Adam算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/devops8pract/article/details/151037122

深度学习的数学基石专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习中寻找函数最小值的算法解析

在深度学习领域，寻找函数的全局最小值是一个核心任务，它对于优化模型参数、提高模型性能至关重要。本文将介绍几种常见的寻找函数最小值的算法，包括Adam算法的变种AdaMax、模拟退火算法、提高分辨率方法以及Hessian方法，并深入探讨它们的原理和应用。

1. Adam算法及AdaMax变种

Adam算法是一种常用的优化算法，它结合了动量法和自适应学习率的思想。通过应用期望算子并假设一阶和二阶矩是平稳的，可以得到以下公式：
- (E[m(t)] = (1 - \beta_1) \sum_{i=1}^{t} \beta_1^{t - i} E[g_i] = (1 - \beta_1^t)E[g_t])
- (E[v(t)] = (1 - \beta_2) \sum_{i=1}^{t} \beta_2^{t - i} E[(g_i)^2] = (1 - \beta_2^t)E[(g_t)^2])

为了修正偏差，得到偏差修正后的矩：
- (\hat{m}(t) = m(t)/(1 - \beta_1^t))
- (\hat{v}(t) = v(t)/(1 - \beta_2^t))

最终的递归公式为：
(x(t + 1) = x(t) - \eta \frac{\hat{m}(t)}{\sqrt{|\hat{v}(t)| + \epsilon}})

其中，(\epsilon > 0) 是一个小的标量，用于防止除零错误。常见的超参数默认设置为 (\eta = 0.001)，(\beta_1 = 0.9)，(\beta_2 = 0.99)，(\epsilon =

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。