机器学习中的核方法、贝叶斯方法与高斯过程
1. 表示定理
表示定理给出了正则化成本函数最小化问题的一个重要性质。对于固定的非线性特征变换 $\varphi(x)$ 和待从训练数据 ${x_i, y_i} {i = 1}^n$ 中学习的参数 $\theta$,正则化成本函数为:
[
\frac{1}{n} \sum {i = 1}^{n} L(y_i, \theta^T \varphi(x_i)) + h(|\theta|_2^2)
]
其中 $L(y, \hat{y})$ 是任意损失函数,$h: [0, \infty] \to \mathbb{R}$ 是严格单调递增函数。该定理表明,此正则化成本函数的每个最小化器 $\theta$ 都可以写成 $\theta = \Phi(X)^T \alpha$(等价地,$\hat{y}(x) = \alpha^T K(X, x^*)$),其中 $\alpha$ 是一个 $n$ 维向量。
证明过程如下:
对于给定的 $X$,任何 $\theta$ 都可以分解为两部分,一部分 $\Phi(X)^T \alpha$ 位于 $\Phi(X)$ 的行空间中,另一部分 $v$ 与 $\Phi(X)$ 的所有行 $\varphi(x_i)$ 正交,即 $\theta = \Phi(X)^T \alpha + v$。对于训练数据中的任意 $x_i$,有:
[
\hat{y}(x_i) = \theta^T \varphi(x_i) = (\Phi(X)^T \alpha + v)^T \varphi(x_i) = \alpha^T \Phi(X) \varphi(x_i) + v^T \
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



