(这一章感觉比较抽象,而且和之前学的线性回归和逻辑回归之间有奇妙的联系。最后一页高斯过程用于分类时选模型的公式推导我略去了,没有细看)
目录
许多线性参数模型可以被转化为一个等价的“对偶表示”dual representation,其中,预测是基于训练数据点处的核函数线性组合
对于非线性特征空间映射 ϕ ( x ) \phi(\bm x) ϕ(x),核函数为
k ( x , x ′ ) = ϕ ( x ) T ϕ ( x ′ ) k(\bm x,\bm x')=\phi(\bm x)^T\phi(\bm x') k(x,x′)=ϕ(x)Tϕ(x′)
注意核函数是对称的
核函数有许多扩展,例如核技巧。如果有一个算法,只和输入向量的标量积有关,则可以用其它的核函数形式来替换这个标量积。例如把PCA扩展到非线性PCA,把knn扩展到非线性knn,以及带核的Fisher判别分析等。
(核技巧之前写过一篇博客:核技巧的一些知识点——CVMLI Prince读书随笔第7章,这里要融会贯通一下)
- 核技巧能把特征升到高维,从而避免避免维度灾难吗?
实际上,升到高维后,数据仍然是高维空间中的低维流形。本身维度没有发生变化。
静止核stationary kernel
只和差有关,具有平移不变性
k ( x , x ′ ) = k ( x − x ′ ) k(\bm x,\bm x')=k(\bm x-\bm x') k(x,x′)=k(x−x′)
径向基函数radial basis function(同质核homogeneous kernel)
只和距离有关,具有平移不变性
k ( x , x ′ ) = k ( ∥ x − x ′ ∥ ) k(\bm x,\bm x')=k(\|\bm x-\bm x'\|) k(x,x′)=k(∥x−x′∥)
6.1 Dual Representations
考虑线性回归MAP解,损失函数为
J ( w ) = 1 2 ∑ n = 1 N { w T ϕ ( x n ) − t n } 2 + λ 2 w T w J(\bm w)=\frac{1}{2}\sum_{n=1}^N \{ \bm w^T\bm\phi(\bm x_n)-t_n \}^2+\frac{\lambda}{2}\bm w^T\bm w J(w)=21n=1∑N{
wTϕ(xn)−tn}2+2λwTw
回顾第3章,这个解为
w = ( λ I M + Φ T Φ ) − 1 Φ T t \bm w=(\lambda \bm I_M+\bm\Phi^T \bm\Phi)^{-1}\bm\Phi^T \bm t w=(λIM+ΦTΦ)−1ΦTt
其中 Φ = [ ϕ ( x 1 ) , ϕ ( x 2 ) , ⋯ , ϕ ( x N ) ] T \bm\Phi=[\bm\phi(x_1),\bm\phi(x_2), \cdots, \bm\phi(x_N)]^T Φ=[ϕ(x1),ϕ(x2),⋯,ϕ(xN)]T
用Woodbury恒等式,右侧变为
[ λ − 1 Φ T − λ − 1 Φ T ( I N + Φ λ − 1 Φ T ) − 1 Φ λ − 1 Φ T ] t = [ λ − 1 Φ T − λ − 1 Φ T ( λ I N + Φ Φ T ) − 1 Φ Φ T ] t = [ λ − 1 Φ T ( λ I N + Φ Φ T ) − 1 ( λ I N + Φ Φ T − Φ Φ T ) ] t = Φ T ( λ I N + Φ Φ T ) − 1 t \begin{aligned} &[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\bm I_N+\bm\Phi \lambda^{-1} \bm\Phi^T)^{-1}\bm\Phi \lambda^{-1}\bm\Phi^T] \bm t \\ =&[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm\Phi \bm\Phi^T ]\bm t \\ =&[\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1}(\lambda \bm I_N + \bm\Phi \bm\Phi^T-\bm\Phi\bm\Phi^T) ]\bm t \\ =& \bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1} \bm t \end{aligned} ===[λ−1ΦT−λ−1ΦT(IN+Φλ−1ΦT)−1Φλ−1ΦT]t[λ−1ΦT−λ−1ΦT(λIN+ΦΦT)−1ΦΦT]t[λ−1ΦT(λIN+ΦΦT)−1(λIN+ΦΦT−ΦΦT)]tΦT(λIN+ΦΦT)−1t
这波操作有点神奇。。。
(书上用的另一种推法,我没有细看,但是结果一样的,我为了保持思路连续,沿用了第3章的结论)
从而
y ( x ) = ϕ ( x ) T w = ϕ ( x ) T Φ T ( λ I N + Φ Φ T ) − 1 t = k ( x ) T ( K + λ I N ) − 1 t y(\bm x)=\bm\phi(\bm x)^T\bm w=\bm\phi(\bm x)^T\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm t=\bm k(\bm x)^T(\bm K+\lambda \bm I_N)^{-1}\bm t y(x)=ϕ(x)Tw=ϕ(x)TΦT(λIN+ΦΦT)−1t=k(x)T(K+λIN)−1t
其中 K = Φ Φ T \bm K=\bm\Phi \bm\Phi^T K=ΦΦT是Gram矩阵,元素为 K n m = ϕ ( x n ) T ϕ ( x m ) = k ( x n , x m ) K_{nm}=\bm\phi(\bm x_n)^T\bm\phi(\bm x_m)=k(\bm x_n,\bm x_m) Knm=ϕ(xn)Tϕ(xm)=k(xn,xm),向量 k \bm k k由 k n ( x ) = k ( x n , x ) k_n(\bm x)=k(\bm x_n,\bm x) kn(x)=k(xn,x)组成
- 这里的对偶形式,完全由核函数表达
- 结果是新观测和训练集计算核函数的结果的线性组合,满足 y ( x ) = ∑ n = 1 N α n k ( x n , x ) y(\bm x)=\sum_{n=1}^N \alpha_n k(\bm x_n, \bm x) y(x)=∑n=1Nαnk(xn,x)
- 实际上 ( λ I N + K ) − 1 t (\lambda \bm I_N+\bm K)^{-1}\bm t (λIN+K)−1t是向量 ϕ ( x n ) \bm\phi(\bm x_n) ϕ(xn)的线性组合(没证……)
- 这里对偶形式求逆的维度为 N N N,当数据量大时,比原形式的复杂度要大很多
- 不过这里可以直接定义核函数 k k k,而不用考虑特征映射 ϕ \bm\phi ϕ
感知机也可以写出对偶形式
6.2 Constructing Kernels
最简单的构造核方法是从
k ( x , x ′ ) = ϕ ( x ) T ϕ ( x ′ ) k(x,x')=\phi(x)^T\phi(x') k(x,x′)=ϕ(x)Tϕ(x′)
如图所示

但我们可以不需要直接设计 ϕ \phi ϕ,直接构造 k k k,但是要保证它对应一个标量积(可以是无穷维)
关于核函数的判定参见最上方贴出的之前的博客,这里再回顾一下:
- 对于任意 { x n } \{\bm x_n\} { xn}, K \bm K K需要半正定,其中元素由 k ( x n , x m k(\bm x_n,\bm x_m k(xn,xm)组成
一种构造核的办法是根据已有的核构造新的

P296 高斯核
k ( x , x ′ ) = exp ( − ∥ x − x ′ ∥ 2 / ( 2 σ 2 ) ) k(\bm x,\bm x')=\exp \left(-\| \bm x-\bm x'\|^2/(2\sigma^2)\right) k(x,x′)=exp(−∥x−x′∥2/(2σ2))
可以认为构造方法为
exp ( − x T x / ( 2 σ 2 ) exp ( x T x ′ / σ 2 ) exp ( − x ′ T x ′ / ( 2 σ 2 ) ) \exp(-\bm x^T\bm x/(2\sigma^2)\exp(\bm x^T\bm x'/\sigma^2)\exp(-\bm x'^T\bm x'/(2\sigma^2)) exp(−xTx/(2σ2)exp(xTx′/σ2)exp(−x′Tx′/(2σ2))
使用上述图中(6.14)和(6.16)进行构造
注意特征向量是无穷维的
高斯核函数可以不局限于欧氏距离
k ( x , x ′ ) = exp ( − 1 2 σ 2 ( κ ( x , x ) + κ ( x ′ , x ′ ) − 2 κ ( x , x ′ ) ) k(\bm x,\bm x')=\exp(-\frac{1}{2\sigma^2}(\kappa(\bm x,\bm x) +\kappa(\bm x',\bm x') - 2\kappa(\bm x, \bm x')) k(x,x′)=exp(−2σ21(κ(x,x)+κ(x′,x′)−2κ(x,x

最低0.47元/天 解锁文章
958

被折叠的 条评论
为什么被折叠?



