Optimization for Machine Learning

Naomi521

于 2025-04-01 06:00:00 发布

阅读量934

点赞数 17

文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/Naomi521/article/details/146892992

版权

1. 机器学习中的优化问题

机器学习中的许多问题可以归结为最小化（或最大化）某个目标函数，如：

监督学习（Supervised Learning）
- 回归任务（Regression）： 最小化均方误差（MSE）
- 分类任务（Classification）： 最小化交叉熵损失（Cross-Entropy Loss）
无监督学习（Unsupervised Learning）
- 聚类（Clustering）： 最小化 K-means 目标函数
- 降维（Dimensionality Reduction）： 例如最小化 PCA 的重构误差
强化学习（Reinforcement Learning）
- 最大化累积奖励（Cumulative Reward）

梯度下降是优化的核心方法，它基于损失函数相对于模型参数的梯度来更新参数：

θ(t+1)=θ(t)−α∇J(θ)\theta^{(t+1)} = \theta^{(t)} - \alpha \nabla J(\theta)θ(t+1)=θ(t)−α∇J(θ)

其中：

核心思想： 结合过去的梯度更新，减少震荡，提高收敛速度。
公式：
vt=βvt−1+(1−β)∇J(θ)v_t = \beta v_{t-1} + (1 - \beta) \nabla J(\theta)vt=βvt−1+(1−β)∇J(θ) θ(t+1)=θ(t)−αvt\theta^{(t+1)} = \theta^{(t)} - \alpha v_tθ(t+1)=θ(t)−αvt
优点： 适用于凸优化和深度学习，提高收敛速度。

核心思想： 通过指数加权移动平均（EMA）对梯度进行缩放，缓解学习率衰减问题。
公式：
vt=βvt−1+(1−β)∇J(θ)2v_t = \beta v_{t-1} + (1 - \beta) \nabla J(\theta)^2vt=βvt−1+(1−β)∇J(θ)2 θ(t+1)=θ(t)−αvt+ϵ∇J(θ)\theta^{(t+1)} = \theta^{(t)} - \frac{\alpha}{\sqrt{v_t + \epsilon}} \nabla J(\theta)θ(t+1)=θ(t)−vt+ϵα∇J(θ)

核心思想： 结合 Momentum 和 RMSprop，适用于深度学习优化。
更新规则：
mt=β1mt−1+(1−β1)∇J(θ)m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla J(\theta)mt=β1mt−1+(1−β1)∇J(θ) vt=β2vt−1+(1−β2)∇J(θ)2v_t = \beta_2 v_{t-1} + (1 - \beta_2) \nabla J(\theta)^2vt=β2vt−1+(1−β2)∇J(θ)2 θ(t+1)=θ(t)−αvt+ϵmt\theta^{(t+1)} = \theta^{(t)} - \frac{\alpha}{\sqrt{v_t} + \epsilon} m_tθ(t+1)=θ(t)−vt+ϵαmt
优点： 适用于稀疏梯度问题、非凸优化问题。
缺点： 在某些情况下泛化性能不佳。

在深度学习中，优化面临以下挑战：

解决方案：

目标： 通过优化资产权重，最大化投资回报，最小化风险。
方法：
- 均值-方差优化（Mean-Variance Optimization, MVO）
- 凸优化（Convex Optimization）
- 遗传算法（Genetic Algorithm）等非凸优化方法