深度学习中寻找函数最小值的算法解析
在深度学习领域,寻找函数的全局最小值是一个核心任务,它对于优化模型参数、提高模型性能至关重要。本文将介绍几种常见的寻找函数最小值的算法,包括Adam算法的变种AdaMax、模拟退火算法、提高分辨率方法以及Hessian方法,并深入探讨它们的原理和应用。
1. Adam算法及AdaMax变种
Adam算法是一种常用的优化算法,它结合了动量法和自适应学习率的思想。通过应用期望算子并假设一阶和二阶矩是平稳的,可以得到以下公式:
- (E[m(t)] = (1 - \beta_1) \sum_{i=1}^{t} \beta_1^{t - i} E[g_i] = (1 - \beta_1^t)E[g_t])
- (E[v(t)] = (1 - \beta_2) \sum_{i=1}^{t} \beta_2^{t - i} E[(g_i)^2] = (1 - \beta_2^t)E[(g_t)^2])
为了修正偏差,得到偏差修正后的矩:
- (\hat{m}(t) = m(t)/(1 - \beta_1^t))
- (\hat{v}(t) = v(t)/(1 - \beta_2^t))
最终的递归公式为:
(x(t + 1) = x(t) - \eta \frac{\hat{m}(t)}{\sqrt{|\hat{v}(t)| + \epsilon}})
其中,(\epsilon > 0) 是一个小的标量,用于防止除零错误。常见的超参数默认设置为 (\eta = 0.001),(\beta_1 = 0.9),(\beta_2 = 0.99),(\epsilon =
超级会员免费看
订阅专栏 解锁全文
2803

被折叠的 条评论
为什么被折叠?



