SVM支持向量机系列理论（九）核岭回归-优快云博客

本文介绍了岭回归及其核方法的基本原理，探讨了如何通过引入核技巧解决非线性回归问题，并对比了线性岭回归与核岭回归的计算复杂度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 岭回归问题

岭回归就是使用了L2正则化的线性回归模型。当碰到数据有多重共线性时（自变良量存在高相关性），我们就会用到岭回归。

岭回归模型的优化策略为：

$min_w \ \ \ \ \frac{1}{N}\sum_{i}(y_i-w \cdot z_i)^2 + \frac{\lambda}{N}w^Tw \ \ \ \ \ \ \ (1)$

我们由representer Theorem 可以知道，任何L2正则化的线性模型都可以使用 $w = \sum_{i =1}^{N}\ \beta_i \ z_i \ \ \ \ \ \ \ (2)$ 进行转换，进而使用核技巧。

将（2）代入（1），可以得到 kernel ridge regression 的学习策略形式：

$min_{\beta} \ \ \ \ \frac{1}{N}\sum_{i}(y_i- \sum_{j =1}^{N}\ \beta_j \cdot K(z_i,z_j))^2 + \frac{\lambda}{N} \sum_{i =1}^{N}\ \sum_{j =1}^{N}\ \beta_i\beta_jK(z_i,z_j)\ \ \ \ \ \ \ (3)$

写成向量形式，kernel ridge regression 的学习策略为：

$min_{\beta} \ \ \ \ L(\beta) = \frac{1}{N} (\beta^TK^TK \beta - 2 \beta^T K^T y +y^Ty) + \frac{\lambda}{N} \beta^TK\beta\ \ \ \ \ \ \ (4)$

利用常用的矩阵求导公式，可以得出(6),而且K的对称半正定矩阵，导出（7）。

$\bigtriangledown_{\beta} \ \ L(\beta) =\bigtriangledown_{\beta} \ \ \frac{1}{N} (\beta^TK^TK \beta - 2 \beta^T K^T y +y^Ty) + \frac{\lambda}{N} \beta^TK\beta\ \ \ \ \ \ \ (5)$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\bigtriangledown_{\beta} \ \ \frac{2}{N} (K^TK \beta - K^T y ) + \frac{\lambda}{N} (K^T\beta +K\beta) \ \ \ \ \ \ (6)$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\bigtriangledown_{\beta} \ \ \frac{2}{N} (K^TK \beta - K^T y ) + \frac{2}{N} ( \lambda K^T\beta) \ \ \ \ \ \ (7)$

令（7）等于0，得到：

$\beta = (\lambda I + K)^{-1} y \ \ \ \ \ \ \ \ (8)$

问题：

K是一个稠密的矩阵，大部分项都不会为0，计算困难
求逆过程需要 $O(N^3)$ 的计算复杂度

结论：

解决一个“非线性回归问题”的不简单，计算代价很高。

核岭回归和岭回归的计算复杂度比较：

这里写图片描述

在线性岭回归模型中，模型复杂度和特征维度d有关，而非线性核岭回归中，模型复杂度与样本数N有关，因此对于大数据的样本来说，使用核技巧比较困难。
核岭回归由于有核函数，使用起来更加灵活。
核岭回归其实也被称为最小二乘SVM（LSSVM），代表损失函数是最小二乘法的SVM。和普通的软间隔SVM相比， $\beta$ 的值大部分不为0其支持向量非常多，，也就是是稠密的，而并不像soft-SVM中的 $\alpha$ 一样，大部分 $\alpha$ 为0，因此核岭回归在实际中的应用并不是很常见，而支持向量回归（SVR）的在回归问题中用比较广泛。