机器学习中的优化与降维技术解析
1. 优化方法基础
在机器学习的优化问题中,Fisher信息矩阵起着重要作用,它总是半正定且对称的,这使得空间S的每个小区域都类似于欧几里得空间的小区域。在密度估计时,目标函数通常采用负对数似然函数:
[f(\theta) = \frac{1}{k} \sum_{i = 1}^{k} -\log(p(\theta(x_i))) \approx D_{KL}(P || p) + \text{constant}]
其中,(x_i) 是独立的训练样本,(P) 是训练样本所具有的未知分布。Hessian矩阵 (\nabla^2_{\theta}f(\theta)) 为:
[\nabla^2_{\theta}f(\theta) = - E_P \left[\frac{\partial^2 \log(p(\theta(x)))}{\partial \theta^2}\right]]
当接近最优解时,密度函数趋近于 (P) 分布,此时Fisher信息矩阵趋近于Hessian矩阵。自然梯度法和牛顿法在达到最优解时表现相似。不过,在大型学习系统中,数值计算Fisher信息矩阵是一项困难的任务,通常会考虑使用训练示例的子集来计算。
1.1 无导数优化方法
在许多优化问题中,目标函数和约束条件由“黑箱”计算,不提供导数信息,且可能包含噪声,频繁调用黑箱的成本较高。因此,无导数优化(DFO)方法应运而生,它无需近似目标函数的导数,直接对目标函数进行近似。这里主要关注针对凸目标的DFO方法和随机优化方法。
1.1.1 凸目标优化方法
如果一个函数 (f) 的空间 (S) 是凸的,对于空间
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



