非线性输入变换与核方法:核岭回归与支持向量回归解析
1. 引言
在机器学习中,线性回归里精心设计的非线性变换 $\varphi(x)$ 可能在特定问题上表现出色。为了得到通用的方法,我们希望 $\varphi(x)$ 包含多种可能对大多数问题都有用的变换。为此,我们考虑让特征维度 $d$ 远大于数据点数量 $n$,甚至让 $d \to \infty$。下面我们将基于 $L_2$ 正则化线性回归来推导和探讨相关理论,后续会发现该思想也适用于其他模型类型。
2. 重新表述线性回归
在增加线性回归中的 $d$ 时,为避免 $d > n$ 时的过拟合问题,我们需要进行正则化。这里选择 $L_2$ 正则化,其方程为:
[
\hat{\theta} = \arg \min_{\theta} \frac{1}{n} \sum_{i=1}^{n} (\theta^T \varphi(x_i) - y_i)^2 + \lambda |\theta|_2^2 = (\Phi(X)^T \Phi(X) + n\lambda I)^{-1} \Phi(X)^T y
]
目前我们还未确定非线性变换 $\varphi(x)$ 的具体形式,但准备让 $d \gg n$。然而,选择较大的 $d$ 意味着训练时需要学习 $d$ 个参数。在标准线性回归中,通常先学习并存储 $d$ 维向量 $\hat{\theta}$,然后用于计算预测值:
[
\hat{y}(x^ ) = \hat{\theta}^T \varphi(x^ )
]
为了能选择非常大的 $d$,甚至 $d \to \infty$,我们需要重
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



