第十九篇正则化后求解优化问题

原创已于 2024-01-03 16:21:01 修改 · 973 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #线性代数

于 2024-01-03 16:14:26 首次发布

文章探讨了正则化在解决最小二乘问题中的作用，特别是在防止过拟合方面。通过引入约束方程，文章介绍了如何使用梯度下降法求解正则化最小二乘问题，以及如何将这种方法推广到非线性优化问题中，运用高斯牛顿法求解复杂雅可比矩阵。

一问题描述

在求解最优化问题时，往往引入正则化的概念，用来防止在数据样本不够时产生过拟合问题。

二正则化模型

2.1 普通最小二乘问题

本文以最小二乘问题为例，阐述如何求解。普通最小二乘问题如下：
$\\ x = arg \quad min(||b-A*x||^2)$

2.2 正则化最小二乘问题

因为出现过拟合时，多项时系数的平方和比较大，所以对求解结果x的模本身增加约束。
$A*x=b\\ x = arg \quad min(||b-A*x||^2 + \sigma_i^2 *\Sigma x_i^2)$

三正则化模型求解

3.1 普通最小二乘解

$x= (A^TA)^{-1}A^Tb$

3.2 梯度下降法

正则化增加了残差项，可以使用梯度下降法。
$\frac{\partial f}{\partial x} = 2*(A^TA*x -A^Tb+\sigma_i^2*\Sigma x_i)$

3.3 增加约束方程

同时增加残差项也相当于增加约束方程。数学问题等同如下。
$\\ \sigma_i*x_i = 0$
进一步化简为
$A_{reg}*x=b_{reg} \\$
其中各表达式如下
$\Sigma = diag([\sigma_1, \sigma_2, ... , \sigma_n]) \\ A_{reg} = \begin{bmatrix} A\\ \Sigma \end{bmatrix} \\ b_{reg} = \begin{bmatrix} b\\ 0 \end{bmatrix} \\$
最小二乘法求解
$x = (A_{reg}^T*A_{reg})^{-1}*A_{reg}^T*b_{reg}$

四举一反三

4.1 非线性问题类推

正则化过程的本质是如3.3 所述引入了约束方程，防止多项式系数过大产生过拟合现象。非线性优化问题同样可以引入方程进行同样的正则化。只是求误差解雅克比矩阵也分成两部分，观测量部分也分成两部分。
$\\ \sigma_i*x_i = 0$
误差函数也分为两部分
$f_1 = f(x)-b\\ f_2 = x_i - 0 =x_i$
求出误差函数的雅克比
$\frac{\partial f_1}{\partial x} = \frac{\partial f}{\partial x} \\ \\ J2 = \frac{\partial f_2}{\partial x} =diag([\sigma_1, \sigma_2, ... , \sigma_n]) \\ J = \begin{bmatrix} J1\\ J2 \end{bmatrix} \\$
初始化状态量x为X0，求出误差量。
$\begin{bmatrix} f(\vec X_0) - b\\ \vec X_0 \end{bmatrix} \\$
高斯牛顿法求解
$deltaX = (J^T*J)^{-1}*J^T*deltaY\\ X = X_0-deltaX$