算法收敛性、梯度下降与正规方程组、凸函数性质（机器学习先修知识，方便理解）

最新推荐文章于 2025-02-05 23:17:16 发布

原创最新推荐文章于 2025-02-05 23:17:16 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法

机器学习专栏收录该内容

9 篇文章

订阅专栏

本文探讨了算法收敛性在迭代法中的应用，介绍了常见的迭代法如牛顿法、梯度下降法等，并对比了梯度下降法与正规方程组在求解函数最小值时的优劣。此外，还讲解了凸函数及其在优化问题中的作用。

算法收敛性

算法收敛性在迭代法中的一个概念。
迭代是数值分析中通过从一个初始估计出发寻找一系列近似解来解决问题（一般是解方程或者方程组）的过程，为实现这一过程所使用的方法统称为迭代法（Iterative Method）。
跟迭代法相对应的是直接法（或者称为一次解法），即一次性的快速解决问题，例如通过开方解决方程x+3= 4。一般如果可能，直接解法总是优先考虑的。但当遇到复杂问题时，特别是在未知量很多，方程为非线性时，我们无法找到直接解法（例如五次以及更高次的代数方程没有解析解，参见阿贝耳定理），这时候或许可以通过迭代法寻求方程（组）的近似解。
最常见的迭代法是牛顿法。其他还包括最速下降法、共轭迭代法、变尺度迭代法、最小二乘法、线性规划、非线性规划、单纯型法、惩罚函数法、斜率投影法、遗传算法、模拟退火等等。 $^{[1]}$

梯度下降与正规方程组

两种都是求解函数的最小值的方法。后者是在最小二乘法中使用的方法。

	梯度下降法	正规方程组法
学习率	需要选择学习速率，不设置会有默认值	无
迭代	需要多次迭代	一次求导得出
学习率	需要选择学习速率，不设置会有默认值	一次求导得出，不需迭代
数据量	特征数量n很大也较好适用	需要计算(X $^T$ X) $^{-1}$ 如果特征数量n较大则运算代价大，因为矩阵的逆的计算时间复杂度为 $o(n^{3})$ 通常来说当n小于10000时还是可以接受的
适用性	适用各种类型的模型	只适用于线性模型,不适用与逻辑回归模型等其他模型

凸函数及其性质

凸函数是具有如下特性的一个定义在某个向量空间的凸子集C（区间）上的实值函数f：对其定义域C上的任意两点 $x_1 、x_2$ ，总有 $f((x_1+x_2)/2)≤(f(x_1 )+f(x_2))/2$ $^{[3]}$
凸函数最优化，或叫做凸最优化，凸最小化，是数学最优化的一个子领域，研究定义于凸集中的凸函数最小化的问题。凸最佳化在某种意义上说较一般情形的数学最佳化问题要简单，譬如在凸最佳化中局部最佳值必定是全局最佳值。一般的凸最佳化已经接近简单的线性规划一样直捷易行。许多最佳化问题都可以转化成凸最佳化（凸最小化）问题，例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。 $^{[4]}$

参考文献：
$^{[1]}$ :https://baike.baidu.com/item/%E8%BF%AD%E4%BB%A3/8415523?fr=aladdin
$^{[2]}$ :https://blog.youkuaiyun.com/GhostintheCode/article/details/93136495
$^{[3]}$ :https://zh.wikipedia.org/wiki/%E5%87%B8%E5%87%BD%E6%95%B0
$^{[4]}$ :https://zh.wikipedia.org/wiki/%E5%87%B8%E5%84%AA%E5%8C%96