PRML阅读笔记（三）

最新推荐文章于 2022-09-02 10:46:33 发布

原创

最新推荐文章于 2022-09-02 10:46:33 发布 · 902 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #模式识别 #基础知识 #学习笔记

CH3 Linear models for regression回归的线性模型

3.1线性基函数模型

回归的最简单模型
$y(\boldsymbol x,\boldsymbol w)=w_0+w_1x_1+\ldots+w_Dx_D$
其中 $x=(x1,…,xD)T\boldsymbol x=(x_1,\ldots,x_D)^T$ .
扩展模型

将输入变量的固定的非线性函数进行线性组合

形式为
$y(\boldsymbol x,\boldsymbol w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(\boldsymbol x)$
其中 $ϕj(x)\phi_j(\boldsymbol x)$ 称为基函数（basis function）。此模型中的参数总数为 $M$ 。参数 $w_0$ 称为偏置参数（bias parameter）

定义 $ϕ0(x)=1\phi_0(\boldsymbol x)=1$ ,此时
$y(\boldsymbol x,\boldsymbol w)=\sum_{j=0}^{M-1}w_j\phi_j(\boldsymbol x)=\boldsymbol w^T\phi(\boldsymbol x)$
其中 $w=(w0,…,wM−1)T\boldsymbol w=(w_0,\ldots,w_M-1)^T$ 且 $ϕ=(ϕ0,…,ϕM−1)T\phi=(\phi_0,\ldots,\phi_{M-1})^T$ 。基函数{ $ϕj(x)\phi_j(\boldsymbol x)$ }可以表示原始变量 $x\boldsymbol x$ 的特征（预处理或特征抽取后的）
基函数选择

多项式拟合，基函数： $ϕj(x)=xj\phi_j(x)=x^j$ 。局限性：是输入变量的全局函数，因此对于输入空间一个区域的改变将会影响所有其他的区域。解决：把输入空间切分成若干个区域，对每个区域用不同的多项式函数拟合。----样条函数（spline function）？？?

高斯基函数， $−(x−μj)22s2}\phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\}$ ,其中 $μj\mu_j$ 控制了基函数在输入空间中的位置，参数 $s$ 控制了基函数的空间大小。未必是一个概率表达式。归一化系数不重要，因为有调节参数 $w_j$

sigmoid基函数， $ϕj(x)=σ(x−μjs)\phi_j(x)=\sigma(\frac{x-\mu_j}{s})$ ,其中 $σ(a)=11+exp⁡(−a)\sigma(a)=\frac{1}{1+\exp(-a)}$ 是logistic sigmoid函数。等价地可以使用tanh函数，和logistic sigmoid函数的关系为tanh( $a$ )= $2σ(2a)−12\sigma(2a)-1$

傅里叶基函数，用正弦函数展开。

在这里插入图片描述

3.1.1最大似然与最小平方

假设目标变量 $t$ 由确定的函数 $y(x,w)y(\boldsymbol x,\boldsymbol w)$ 给出，附加高斯噪声，即
$t=y(\boldsymbol x,\boldsymbol w)+\epsilon$
其中 $ϵ\epsilon$ 是一个零均值的高斯随机变量，精度为 $β\beta$ ，有
$p(t|\boldsymbol x,\boldsymbol w,\beta)=\mathcal N(t|y(\boldsymbol x,\boldsymbol w),\beta^{-1})$

ch1中，假设一个平方损失函数，对于 $x\boldsymbol x$ 的一个新值，最优预测由目标变量的条件均值给出，在高斯条件分布的情况下，条件均值可写成
$\mathbb E[t|\boldsymbol x]=\int tp(t|\boldsymbol x)dt=y(\boldsymbol x,\boldsymbol w)$
高斯噪声的假设表明，给定 $x\boldsymbol x$ 的条件下， $t$ 的条件分布是单峰的，可以扩展到条件高斯分布的混合，描述多峰的条件分布

考虑一个输入数据集 $x1,…,xN}\boldsymbol X=\left\{\boldsymbol x_1,\ldots,\boldsymbol x_N\right\}$ ，对应的的目标值为 $t1,…,tNt_1,\ldots,t_N$ ，将目标向量{ $t_n$ }组成一个列向量，记作 $t\boldsymbol t$ 。假设数据点独立，得到似然函数为
$p(\boldsymbol t|\boldsymbol X,\boldsymbol w,\beta)=\prod_{n=1}^N\mathcal N(t_n|\boldsymbol w^T\phi(\boldsymbol x_n),\beta^{-1})$
取对数似然函数，有(不显式地写出 $x\boldsymbol x$ )
$\ln p(\boldsymbol t|\boldsymbol w,\beta)=\sum_{n=1}^N\ln \mathcal N(t_n|\boldsymbol w^T\phi(\boldsymbol x_n),\beta^{-1})=\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)-\beta E_D(\boldsymbol w)$
其中平方和误差函数为
$E_D(\boldsymbol w)=\frac{1}{2}\sum_{n=1}^N\left\{t_n-\boldsymbol w^T\phi(\boldsymbol x_n)\right\}^2$
对数似然函数的梯度为
$\nabla \ln p(\boldsymbol t|\boldsymbol w,\beta)=\beta\sum_{n=1}^N\left\{t_n-\boldsymbol w^T\phi(\boldsymbol x_n)\right\}\phi(\boldsymbol x_n)^T$
令梯度为0，得
$0=\sum_{n=1}^Nt_n\phi(\boldsymbol x_n)^T-\boldsymbol w^T(\sum_{n=1}^N\phi(\boldsymbol x_n)\phi(\boldsymbol x_n)^T)$
求解 $w\boldsymbol w$ ，有
$\boldsymbol w_{ML}=(\boldsymbol \Phi^T\boldsymbol \Phi)^{-1}\boldsymbol \Phi^T\boldsymbol t$
称为最小平方问题的规范方程（normal equation）， $Φ\boldsymbol \Phi$ 是 $N×MN\times M$ 的矩阵，称为设计矩阵（design matrix），元素为 $Φnj=ϕj(xn)\Phi_{nj}=\phi_j(\boldsymbol x_n)$ ,即
$\boldsymbol \Phi=\begin{pmatrix}\phi_0(\boldsymbol x_1) &\phi_1(\boldsymbol x_1) & \cdots & \phi_{M-1}(\boldsymbol x_1) \\ \phi_0(\boldsymbol x_2) & \phi_1(\boldsymbol x_2) &\cdots & \phi_{M-1}(\boldsymbol x_2) \\ \vdots &\vdots&\ddots&\vdots \\\phi_0(\boldsymbol x_N)&\phi_1(\boldsymbol x_N)&\cdots&\phi_{M-1}(\boldsymbol x_N)\end{pmatrix}$
量
$\boldsymbol \Phi^\dagger\equiv (\boldsymbol \Phi^T\boldsymbol \Phi)^{-1}\boldsymbol \Phi^T$
成为矩阵的Moore-Penrose伪逆矩阵（pseudo-inverse matrix），可被看成逆矩阵的概念对于非方阵的矩阵的推广

显式地写出偏置参数，误差函数为
$E_D(\boldsymbol w)=\frac{1}{2}\sum_{n=1}^N\left\{t_n-w_0-\sum_{j=1}^{M-1}w_j\phi_j(x_n)\right\}^2$
令关于 $w_o$ 的导数等于零，解出 $w_o$ ，得
$w_0=\bar t-\sum_{j=1}^{M-1}w_j\bar \phi_j$
其中定义了
$\bar t=\frac{1}{N}\sum_{n=1}^Nt_n$

$\bar \phi_j=\frac{1}{N}\sum_{n=1}^N\phi_j(\boldsymbol x_n)$

因此偏置 $w_0$ 补偿了目标值的平均值（在训练集上的）与基函数的值的平均值的加权求和之间的差。

关于噪声精度参数 $β\beta$ 最大化似然函数
$\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^N\left\{t_n-w_{ML}^T\phi(x_n)\right\}^2$
因此噪声精度的倒数由目标值在回归函数周围的残留方差给出

3.1.2最小平方的几何描述

考虑一个 $N$ 维空间，坐标轴由 $t_n$ 给出， $t=(t1,…,tN)\boldsymbol t=(t_1,\ldots,t_N)$ 是空间中的一个向量，每个在 $N$ 个数据点处估计的基函数 $ϕj(xn)\phi_j(\boldsymbol x_n)$ 可以表示为这个空间中的一个向量，记作 $φj\varphi_j$ ,对应于 $Φ\Phi$ 的第 $i$ 列