PRML阅读笔记(三)

CH3 Linear models for regression回归的线性模型

3.1线性基函数模型

  • 回归的最简单模型
    y(x,w)=w0+w1x1+…+wDxD y(\boldsymbol x,\boldsymbol w)=w_0+w_1x_1+\ldots+w_Dx_D y(x,w)=w0+w1x1++wDxD
    其中x=(x1,…,xD)T\boldsymbol x=(x_1,\ldots,x_D)^Tx=(x1,,xD)T.

  • 扩展模型

    将输入变量的固定的非线性函数进行线性组合

    形式为
    y(x,w)=w0+∑j=1M−1wjϕj(x) y(\boldsymbol x,\boldsymbol w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(\boldsymbol x) y(x,w)=w0+j=1M1wjϕj(x)
    其中ϕj(x)\phi_j(\boldsymbol x)ϕj(x)称为基函数(basis function)。此模型中的参数总数为MMM。参数w0w_0w0称为偏置参数(bias parameter)

    定义ϕ0(x)=1\phi_0(\boldsymbol x)=1ϕ0(x)=1,此时
    y(x,w)=∑j=0M−1wjϕj(x)=wTϕ(x) y(\boldsymbol x,\boldsymbol w)=\sum_{j=0}^{M-1}w_j\phi_j(\boldsymbol x)=\boldsymbol w^T\phi(\boldsymbol x) y(x,w)=j=0M1wjϕj(x)=wTϕ(x)
    其中w=(w0,…,wM−1)T\boldsymbol w=(w_0,\ldots,w_M-1)^Tw=(w0,,wM1)Tϕ=(ϕ0,…,ϕM−1)T\phi=(\phi_0,\ldots,\phi_{M-1})^Tϕ=(ϕ0,,ϕM1)T。基函数{ ϕj(x)\phi_j(\boldsymbol x)ϕj(x)}可以表示原始变量x\boldsymbol xx的特征(预处理或特征抽取后的)

  • 基函数选择

    多项式拟合,基函数:ϕj(x)=xj\phi_j(x)=x^jϕj(x)=xj。局限性:是输入变量的全局函数,因此对于输入空间一个区域的改变将会影响所有其他的区域。解决:把输入空间切分成若干个区域,对每个区域用不同的多项式函数拟合。----样条函数(spline function)???

    高斯基函数,ϕj(x)=exp⁡{ −(x−μj)22s2}\phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\}ϕj(x)=exp{ 2s2(xμj)2},其中μj\mu_jμj控制了基函数在输入空间中的位置,参数sss控制了基函数的空间大小。未必是一个概率表达式。归一化系数不重要,因为有调节参数wjw_jwj

    sigmoid基函数,ϕj(x)=σ(x−μjs)\phi_j(x)=\sigma(\frac{x-\mu_j}{s})ϕj(x)=σ(sxμj),其中σ(a)=11+exp⁡(−a)\sigma(a)=\frac{1}{1+\exp(-a)}σ(a)=1+exp(a)1是logistic sigmoid函数。等价地可以使用tanh函数,和logistic sigmoid函数的关系为tanh(aaa)=2σ(2a)−12\sigma(2a)-12σ(2a)1

    傅里叶基函数,用正弦函数展开。

在这里插入图片描述

3.1.1最大似然与最小平方

假设目标变量ttt由确定的函数y(x,w)y(\boldsymbol x,\boldsymbol w)y(x,w)给出,附加高斯噪声,即
t=y(x,w)+ϵ t=y(\boldsymbol x,\boldsymbol w)+\epsilon t=y(x,w)+ϵ
其中ϵ\epsilonϵ是一个零均值的高斯随机变量,精度为β\betaβ,有
p(t∣x,w,β)=N(t∣y(x,w),β−1) p(t|\boldsymbol x,\boldsymbol w,\beta)=\mathcal N(t|y(\boldsymbol x,\boldsymbol w),\beta^{-1}) p(tx,w,β)=N(ty(x,w),β1)

ch1中,假设一个平方损失函数,对于x\boldsymbol xx的一个新值,最优预测由目标变量的条件均值给出,在高斯条件分布的情况下,条件均值可写成
E[t∣x]=∫tp(t∣x)dt=y(x,w) \mathbb E[t|\boldsymbol x]=\int tp(t|\boldsymbol x)dt=y(\boldsymbol x,\boldsymbol w) E[tx]=tp(tx)dt=y(x,w)
高斯噪声的假设表明,给定x\boldsymbol xx的条件下,ttt的条件分布是单峰的,可以扩展到条件高斯分布的混合,描述多峰的条件分布

考虑一个输入数据集X={ x1,…,xN}\boldsymbol X=\left\{\boldsymbol x_1,\ldots,\boldsymbol x_N\right\}X={ x1,,xN},对应的的目标值为t1,…,tNt_1,\ldots,t_Nt1,,tN,将目标向量{ tnt_ntn}组成一个列向量,记作t\boldsymbol tt。假设数据点独立,得到似然函数为
p(t∣X,w,β)=∏n=1NN(tn∣wTϕ(xn),β−1) p(\boldsymbol t|\boldsymbol X,\boldsymbol w,\beta)=\prod_{n=1}^N\mathcal N(t_n|\boldsymbol w^T\phi(\boldsymbol x_n),\beta^{-1}) p(tX,w,β)=n=1NN(tnwTϕ(xn),β1)
取对数似然函数,有(不显式地写出x\boldsymbol xx)
ln⁡p(t∣w,β)=∑n=1Nln⁡N(tn∣wTϕ(xn),β−1)=N2ln⁡β−N2ln⁡(2π)−βED(w) \ln p(\boldsymbol t|\boldsymbol w,\beta)=\sum_{n=1}^N\ln \mathcal N(t_n|\boldsymbol w^T\phi(\boldsymbol x_n),\beta^{-1})=\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)-\beta E_D(\boldsymbol w) lnp(tw,β)=n=1NlnN(tnwTϕ(xn),β1)=2Nlnβ2Nln(2π)βED(w)
其中平方和误差函数为
ED(w)=12∑n=1N{ tn−wTϕ(xn)}2 E_D(\boldsymbol w)=\frac{1}{2}\sum_{n=1}^N\left\{t_n-\boldsymbol w^T\phi(\boldsymbol x_n)\right\}^2 ED(w)=21n=1N{ tnwTϕ(xn)}2
对数似然函数的梯度为
∇ln⁡p(t∣w,β)=β∑n=1N{ tn−wTϕ(xn)}ϕ(xn)T \nabla \ln p(\boldsymbol t|\boldsymbol w,\beta)=\beta\sum_{n=1}^N\left\{t_n-\boldsymbol w^T\phi(\boldsymbol x_n)\right\}\phi(\boldsymbol x_n)^T lnp(tw,β)=βn=1N{ tnwTϕ(xn)}ϕ(xn)T
令梯度为0,得
0=∑n=1Ntnϕ(xn)T−wT(∑n=1Nϕ(xn)ϕ(xn)T) 0=\sum_{n=1}^Nt_n\phi(\boldsymbol x_n)^T-\boldsymbol w^T(\sum_{n=1}^N\phi(\boldsymbol x_n)\phi(\boldsymbol x_n)^T) 0=n=1Ntnϕ(xn)TwT(n=1Nϕ(xn)ϕ(xn)T)
求解w\boldsymbol ww,有
wML=(ΦTΦ)−1ΦTt \boldsymbol w_{ML}=(\boldsymbol \Phi^T\boldsymbol \Phi)^{-1}\boldsymbol \Phi^T\boldsymbol t wML=(ΦTΦ)1ΦTt
称为最小平方问题的规范方程(normal equation),Φ\boldsymbol \PhiΦN×MN\times MN×M的矩阵,称为设计矩阵(design matrix),元素为Φnj=ϕj(xn)\Phi_{nj}=\phi_j(\boldsymbol x_n)Φnj=ϕj(xn),即
Φ=(ϕ0(x1)ϕ1(x1)⋯ϕM−1(x1)ϕ0(x2)ϕ1(x2)⋯ϕM−1(x2)⋮⋮⋱⋮ϕ0(xN)ϕ1(xN)⋯ϕM−1(xN)) \boldsymbol \Phi=\begin{pmatrix}\phi_0(\boldsymbol x_1) &\phi_1(\boldsymbol x_1) & \cdots & \phi_{M-1}(\boldsymbol x_1) \\ \phi_0(\boldsymbol x_2) & \phi_1(\boldsymbol x_2) &\cdots & \phi_{M-1}(\boldsymbol x_2) \\ \vdots &\vdots&\ddots&\vdots \\\phi_0(\boldsymbol x_N)&\phi_1(\boldsymbol x_N)&\cdots&\phi_{M-1}(\boldsymbol x_N)\end{pmatrix} Φ=ϕ0(x1)ϕ0(x2)ϕ0(xN)ϕ1(x1)ϕ1(x2)ϕ1(xN)ϕM1(x1)ϕM1(x2)ϕM1(xN)

Φ†≡(ΦTΦ)−1ΦT \boldsymbol \Phi^\dagger\equiv (\boldsymbol \Phi^T\boldsymbol \Phi)^{-1}\boldsymbol \Phi^T Φ(ΦTΦ)1ΦT
成为矩阵的Moore-Penrose伪逆矩阵(pseudo-inverse matrix),可被看成逆矩阵的概念对于非方阵的矩阵的推广

显式地写出偏置参数,误差函数为
ED(w)=12∑n=1N{ tn−w0−∑j=1M−1wjϕj(xn)}2 E_D(\boldsymbol w)=\frac{1}{2}\sum_{n=1}^N\left\{t_n-w_0-\sum_{j=1}^{M-1}w_j\phi_j(x_n)\right\}^2 ED(w)=21n=1N{ tnw0j=1M1wjϕj(xn)}2
令关于wow_owo的导数等于零,解出wow_owo,得
w0=tˉ−∑j=1M−1wjϕˉj w_0=\bar t-\sum_{j=1}^{M-1}w_j\bar \phi_j w0=tˉj=1M1wjϕˉj
其中定义了
tˉ=1N∑n=1Ntn \bar t=\frac{1}{N}\sum_{n=1}^Nt_n tˉ=N1n=1Ntn

ϕˉj=1N∑n=1Nϕj(xn) \bar \phi_j=\frac{1}{N}\sum_{n=1}^N\phi_j(\boldsymbol x_n) ϕˉj=N1n=1Nϕj(xn)

因此偏置w0w_0w0补偿了目标值的平均值(在训练集上的)与基函数的值的平均值的加权求和之间的差。

关于噪声精度参数β\betaβ最大化似然函数
1βML=1N∑n=1N{ tn−wMLTϕ(xn)}2 \frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^N\left\{t_n-w_{ML}^T\phi(x_n)\right\}^2 βML1=N1n=1N{ tnwMLTϕ(xn)}2
因此噪声精度的倒数由目标值在回归函数周围的残留方差给出

3.1.2最小平方的几何描述

考虑一个NNN维空间,坐标轴由tnt_ntn给出,t=(t1,…,tN)\boldsymbol t=(t_1,\ldots,t_N)t=(t1,,tN)是空间中的一个向量 ,每个在NNN个数据点处估计的基函数ϕj(xn)\phi_j(\boldsymbol x_n)ϕj(xn)可以表示为这个空间中的一个向量,记作φj\varphi_jφj,对应于Φ\PhiΦ的第iii

如果基函数的数量MMM小于数据点的数量NNN,那么MMM个向量φj\varphi_jφj将会张成一个MMM维的子空间SSS

定义y\boldsymbol yy是一个NNN维向量,第nnn个元素为y(xn,w)y(\boldsymbol x_n,\boldsymbol w)y(xn,w),由于y\boldsymbol yy是向量φj\varphi_j

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值