第三章：linear models for regression

最新推荐文章于 2025-07-05 04:29:50 发布

原创最新推荐文章于 2025-07-05 04:29:50 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

模式识别与机器学习1-14章内容小结-bishop 专栏收录该内容

18 篇文章

订阅专栏

本文探讨了线性基础函数模型的基本概念及其应用，包括最大似然估计与最小二乘法、顺序学习、正则化最小二乘法等内容。此外，还深入分析了偏差-方差分解原理，并介绍了贝叶斯线性回归方法，涵盖参数分布、预测分布及证据近似等方面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：Linear basis function models:

y (x ⃗, w ⃗) = \sum j = 0 M - 1 w j ϕ j (x ⃗) = w ⃗ T ϕ ⃗ (x ⃗)

$y(\vec x,\vec w)=\sum_{j=0}^{M-1}{w_j\phi_{j}{(\vec x)}}=\vec w^{T}\vec \phi(\vec x)$

where:

1： $\vec w=(w_{0},...,w_{M-1})^T$ ； $\vec \phi=(\phi_{0},...,\phi_{M-1})^T$ 并且 $\phi_{0}{(\vec x)}=1$

2： $y(\vec x,\vec w)$ 被称之为线性模型，因为其对参数 $\vec w$ 是线性的，虽然其对输入变量 $\vec x$ 不是线性的。

3： $\phi_{j}{(\vec x)}$ 被称之为基函数(basis function)。基函数可以有很多种选择，比如：

（1）：Polynomial： $\phi_{j}{(x)}=x^j$ ;

（2）：Gaussian： $\phi_{j}{(x)}=exp{(-\frac{(x-u_{j})^2}{2s^2})}$ ;

（3）：Sigmoid： $\phi_{j}{(x)}=\sigma{(\frac{x-u_{j}}{s})}$ with $\sigma{(a)}=\frac{1}{1+exp(-a)}$

(一)：Maximum likelihood and least squares:

1：我们假定目标变量t是deterministic function $y(\vec x,\vec w)$ 和均值为0，precision为 $\beta$ 的高斯噪音 $\epsilon$ 的和，表达成 $t=y(\vec x,\vec w)+\epsilon$ ，于是 $p(t|\vec x,\vec w,\beta)=N(t|y(\vec x,\vec w),\beta^{-1})$ ；注意到，在这里高斯噪音的假设暗示着给定 $\vec x$ 的目标变量t的分布 $p(t|\vec x)$ 是单峰的，可能在一些情况下不适用，这时候可以考虑多个条件高斯分布的叠加。

2：对输入变量 $\vec x$ 的目标值t的最优推测值是 $\int{tp(t|\vec x)d\vec x}=y(\vec x,\vec w)$ ，如果平方损失函数被假定的话。

3：对于一个i.i.d的数据集，其似然函数为 $p(\vec t|\vec X,\vec w,\beta)=\prod_{n=1}^{N}{N(t_{n}|\vec w^T \vec \phi(\vec x_{n}),\beta^{-1})}$ 。运用最大似然法，我们得到的参数 $\vec w ，\beta$ 的值分别是：

w ⃗ M L = (Φ T Φ) - 1 Φ T t ⃗, Φ n j = ϕ j (x ⃗ n)

$\vec w_{ML}=(\Phi^T\Phi)^{-1}\Phi^T\vec t, \Phi_{nj}=\phi_{j}{(\vec x_{n})}$

1 β M L = 1 N \sum n = 1 N {t n - w ⃗ T M L ϕ ⃗ (x ⃗ n)}

$\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^{N}{\{t_{n}-\vec w_{ML}^T\vec \phi{(\vec x_{n})}\}}$

（二）：Sequential learning：

$\quad$ 如果我们有一个非常大的数据集，运用batch technique，假如一次性的去计算极大似然解 $\vec w_{ML}$ ，其将会是一个计算量很大的过程。在这时候，我们可以使用sequential algorithm （on-line algorithm），每一次只考虑一个数据，考虑完一个数据后更新其模型参数。

$\quad$ sequential learning不仅适用于数据量很大的数据集，也适用于real time applications。在real-time applications情况下，数据是以连续流的形式抵达，在所有数据被观察之前我们就要做出预测。

$\quad$ 我们能够通过stochastic gradient descent技术，也称之为sequential gradient descent技术，去获得一个sequential learning算法。如果误差函数可以写成 $E=\sum_{n}{E_{n}}$ ，那么第n个数据被观察之后，其模型参数可以通过 $\vec w^{(\tau+1)}=\vec w^{(\tau)}-\eta \nabla E_{n}$ 获得更新，其中 $\tau$ 代表着迭代的数目， $\eta$ 是学习率参数。如果误差函数 $E_{n}=\frac{1}{2}\{t_{n}-\vec w^T\vec \phi(\vec x_{n})\}$ ，则 $\vec w^{(\tau+1)}=\vec w^{(\tau)}+\eta(t_{n}-\vec w^{(\tau)T}\vec \phi{(\vec x_{n})})\vec \phi{(\vec x_{n})}$ 。

（三）：Regularized least squares:

$\quad$ 运用极大似然法求解模型参数时，如果模型很复杂，则会带来过度拟合的问题。为了控制模型的复杂度以此来避免过度拟合问题，我们可以在之前提到的误差函数中增加一个正则化项，总误差函数可以写成 $\frac{1}{2}\sum_{n=1}^{N}\{t_{n}-\vec w^T\vec \phi{(\vec x_{n})}\}+\frac{\lambda}{2}\vec w^T\vec w$ ， $\lambda$ 被称之为正则化因子(regularization coefficient)，此误差函数最小值对应的参数 $\vec w$ 为 $(\lambda I+\Phi^T\Phi)^{-1}\Phi^Tt$ 。

$\quad$ 正则化因子 $\lambda$ 的添加可以控制模型复杂度的原因：假设我们有一个参数很多复杂度很高的模型，由于正则化因子 $\lambda$ 的添加能够使得模型中参数值朝着0减少，因此如不断增加果我们 $\lambda$ 值直到一个合适正值，则模型中参数值为0，此时模型就非常简单了。则在不断增加 $\lambda$ 值的过程中，模型在由复杂向简单转变，因此我们可以选择一个合适的 $\lambda$ 值，使得模型复杂度满足数据集的需要，这也就是为什么正则化因子 $\lambda$ 的添加可以控制模型复杂度的原因。

$\quad$ 正则化项的添加可以使得我们限制模型的复杂度，从而避免最大似然法带来的过度拟合问题。然后，这就会使得找到合适基函数数目的问题变成找到合适的正则化因子 $\lambda$ 的值。

二：The Bias-Variance Decomposition:

$\quad$ 当我们使用极大似然法时，如果基函数数目很多但训练集数据数目有限，会出现过度拟合问题。这时候我们的一种选择就是限制基函数数目，但这样的话会限制模型的灵活性。当然我们可以添加正则化项，但这样一来，怎样决定正则化因子 $\lambda$ 将会是一个新问题。

$\quad$ 期待的平方损失函数为 $E[L]=\int \{y(\vec x)-h(\vec x)\}^{2}p(\vec x)d\vec x+\int\int\{h(\vec x)-t\}^{2}p(\vec x,t)d\vec xdt$ 。在这个等式中， $h(\vec x)$ 为最佳预测， $y(\vec x)$ 为实际预测，t是实际观测到的值。 $E[L]$ 中的第二项是与我们所做的实际预测 $y(\vec x)$ 无关的项，其的出现是由于intrinsic noise on the data，并且表示的是期待损失最小可以实现的值。为了使期待的损失最小，我们唯一能做的就是找到 $y(\vec x)$ ，使得第一项尽可能的小。

frequentist的model complexity 理论：bias-variance tradeoff

以linear basis function model为例说明：

1：frequentist基于给定的数据集D对参数w进行point estimate；

2：不同的数据集D，估计出来的参数w可能不同，因而导致 $y(\vec x)$ 不同，故可以把D对 $y(\vec x)$ 的这种影响记为 $y(\vec x;D)$ ，换句话说，每一个D对应了一个其所训练出来的模型 $y(\vec x;D)$ ；

3：进行一个thought experiment：假设有很多不同的data sets，每个都是从 $p(t,\vec x)$ 中采样出来，并且每个data set含有N个样本；

4：考虑某个data set D所训练出来的模型 $y(\vec x;D)$ ，那么：

{y (x ⃗; D) - h (x ⃗)} 2 = {y (x ⃗; D) - E D [y (x ⃗; D)] + E D [y (x ⃗; D)] - h (x ⃗)} 2 = {y (x ⃗; D) - E D [y (x ⃗; D)]} 2 + {E D [y (x ⃗; D)] - h (x ⃗)} 2 + 2 {y (x ⃗; D) - E D [y (x ⃗; D)]} {E D [y (x ⃗; D)] - h (x ⃗)}

$\{y(\vec x;D)-h(\vec x)\}^{2}=\{y(\vec x;D)-E_{D}[y(\vec x;D)]+E_D[y(\vec x;D)]-h(\vec x)\}^{2}\\ =\{y(\vec x;D)-E_D[y(\vec x;D)]\}^{2}+\{E_D[y(\vec x;D)]-h(\vec x)\}^2+2\{y(\vec x;D)-E_{D}[y(\vec x;D)]\}\{E_D[y(\vec x;D)]-h(\vec x)\}$

现在可以take the expectation of this expression with respect to D,我们得到

E D [{y (x ⃗; D) - h (x ⃗)} 2] = {E D [y (x ⃗; D)] - h (x ⃗)} 2 + E D [{y (x ⃗; D) - E D [y (x ⃗; D)]} 2]

$E_{D}[\{y(\vec x;D)-h(\vec x)\}^2]=\{E_D[y(\vec x;D)]-h(\vec x)\}^2+E_D[\{y(\vec x;D)-E_{D}[y(\vec x;D)]\}^2]$

The first term, called the bias^2 , represents the extent to which the average prediction over all data sets differs from the desired regression function. The second term, called the variance, measured the extent to which the solutions for individual data sets vary around their average, and hence this measured the extent to which the function $y(\vec x;D)$ is sensitive the particular choice of data set.

5：用 $E_{D}[\{y(\vec x;D)-h(\vec x)\}^2]$ 替换掉期待平方损失函数E[L]中的 $\{y(\vec x)-h(\vec x)\}^2$ ，我们能够得到Expected loss(E[L])=(bias)^2 + variance + noise。因此为了极小化期待损失，我们需要在bias和variance中取得平衡，flexible模型有着low bias（average model能够很好接近desired model）， high variance(但是model 对 particular data set D很敏感)，rigid模型则有着high bias，low variance，一个好的模型需要在bias和variance中取得较好的平衡。

三：Bayesian linear regression：

(一)：Parameter distribution：

$\quad$ 似然函数 $p(\vec t|\vec w)$ 是 $\vec w$ 的二次函数的指数形式，因此参数 $\vec w$ 的共轭先验概率可以为 $p(\vec w)=N(\vec w|\vec m_{0},S_{0})$ ，因此后验概率:

p (w ⃗ | t ⃗) = N (w ⃗ | m ⃗ N, S N) m ⃗ N = S N (S - 1 0 m ⃗ 0 + β Φ T t ⃗) S - 1 N = S - 1 0 + β Φ T Φ

$p(\vec w|\vec t)=N(\vec w|\vec m_{N},S_{N}) \\ \vec m_{N}=S_{N}(S_{0}^{-1}\vec m_{0}+\beta \Phi^{T}\vec t)\\ S_{N}^{-1}=S_{0}^{-1}+\beta\Phi^T\Phi$
后验概率最大值对应的

w⃗ MAP=m⃗ N $\vec w_{MAP}=\vec m_{N}$

$\quad$ 现在假设参数 $\vec w$ 的先验概率 $p(\vec w|\alpha)=N(\vec w|0,\alpha^{-1}I)$ ，即 $\vec w=0, S_{0}=\alpha^{-1}I$ 。因此对应的后验概率 $p(\vec w|\vec t)=N(\vec w|\vec m_{N},S_{N}),\vec m_{N}=\beta S_{N}\Phi^T\vec t, S_{N}^{-1}=\alpha I+\beta \Phi^T\Phi$ 。在此情况下，则：

1：如果 $\alpha$ 趋于0，即有一个无限宽的先验，则后验分布的平均值 $\vec m_{N}趋于\vec w_{ML}=(\Phi^{T}\Phi)^{-1}\Phi^{T}\vec t$ 。

2：后验概率的log形式为 $\ln p(\vec w|\vec t)=-\frac{\beta}{2}\sum_{n=1}^{N}\{t_{n}-\vec w^{T}\vec\phi(\vec x_{n})\}^2-\frac{\alpha}{2}\vec w^{T}\vec w+const$ 。当我们极大化后验概率时，就相当于极小化了极大似然法中所提到的误差平方和以及正则化项这两项的和，在这里 $\alpha/\beta$ 相当于前面所提到的正则化因子 $\lambda$ 。

(二)：Predictive distribution：

$\quad$ 事实上，我们希望对变量 $\vec x$ 所对应的目标值t做预测，因此我们需要计算出预测分布： $p(t|\vec{t},\alpha,\beta)=\int p(t|\vec w,\beta)p(\vec w|\vec t,\alpha,\beta)d\vec w$ 。由于 $p(t|\vec w,\beta)=N(t|y(\vec x,\vec w),\beta^{-1}), p(\vec w|\vec t,\alpha,\beta)=N(\vec w|\vec m_{N},S_{N})$ ，因此预测分布

p (t | t ⃗, α, β) = N (t | m ⃗ T N ϕ ⃗ (x ⃗), σ 2 N (x ⃗)) σ 2 N (x ⃗) = 1 β + ϕ ⃗ (x ⃗) T S N ϕ ⃗ (x ⃗)

$p(t|\vec t,\alpha,\beta)=N(t|\vec m_{N}^{T}\vec\phi(\vec x),\sigma_{N}^{2}(\vec x))\\ \sigma_{N}^{2}(\vec x)=\frac{1}{\beta}+\vec \phi(\vec x)^TS_{N}\vec \phi(\vec x)$ 参数

x⃗ $\vec x$ 的方差的第一项对应的是数据的噪音(noise on the data)，第二项对应的是和参数

w⃗ $\vec w$ 相关的不确定度。

$\quad$ 从这里我们就可以看出为什么贝叶斯方法能够避免过度拟合的问题并且只从训练集就能评价模型的好与坏：在贝叶斯方法中，我们假设参数 $\vec w$ 是变量，在对变量 $\vec w$ 边际化时，不仅能够给出值预测，还能够给出对应的不确定度。因此即使一个很复杂的模型能够很好的给出值预测，但不确定度很大，那这个复杂的模型依然无效，这一信息我们可以通过贝叶斯方法对训练集数据做一次预测直接得到。但是在极大似然法中，我们对参数 $\vec w$ 做出的是点预测，因此我们在对训练集变量 $\vec x$ 的目标值t做预测时，只能做出值预测，但给不出对应的不确定度，因此预测值可能很准确，但对应的不确定度事实上很大，这就是过度拟合问题，因此为了知道这个模型的好与坏，我们还需要另外一个独立的validation集合去验证这个模型。

Bayesian veiw on model complexity ：model evidence p(D)

$\quad$ 在贝叶斯方法中，我们不仅能够给出对目标值的推测值，还能给出对应的不确定度，这个不确定度是与参数 $\vec w$ 的不确定度呈正相关的。对于简单模型来说，由于参数很小数据集的量相对很大，因此训练后的参数 $\vec w$ 对应的不确定度比较小，但由于其简单，所以对训练集不能给出比较好的值预测，因此导致用简单模型对训练集做最终预测时，预测的值与实际值有出入，但对应不确定度小；对于复杂模型来说，由于参数很多但数据集相对来说有限，因此训练后的参数 $\vec w$ 对应的不确定比较大，但由于该模型复杂，所以比较灵活，能够对训练集给出比较好的值预测，因此用复杂模型对训练集做预测时，预测的值与实际的值会吻合的很好，但对应的不确定度会很大。因此这就有了拟合的好与坏与模型复杂度之间的一个权衡，这个量可以用 $p(D|M_{i})$ 来衡量( $M_{i}$ 表示某一个特定的模型)，这个量称之为model evidence。

p (D | M i) = \int p (D | w ⃗, M i) p (w ⃗ | M i) d w ⃗

$p(D|M_{i})=\int p(D|\vec w,M_{i})p(\vec w|M_{i})d\vec w$

(三)：Equivalent kernel:

$\quad$ $y(\vec x,\vec m_{N})=\vec m_{N}^{T}\vec \phi(\vec x)=\sum_{n=1}^{N}\beta \vec\phi(\vec x)^{T}S_{N}\vec \phi(\vec x_{n})t_{n}=\sum_{n=1}^{N}k(\vec x,\vec x_{n})t_{n}$ ， $k(\vec x,\vec x_{n})$ 称之为smoother matrix 或者是equivalent kernel，并且是localized around $\vec x$ 。从该公式中，我们发现对点 $\vec x$ 所作出的预测值是训练集目标变量 $t_{n}$ 的线性组合，权重为euqivalent kernel $k(\vec x,\vec x_{n})$ ，因此对于靠近 $\vec x$ 的训练集数据点目标值给出高的权重，对于远离 $\vec x$ 的训练集的数据点目标值给出低的权重，这是符合情理的。

$\quad$ 通过将训练集目标变量值的线性组合起来对输入变量 $\vec x$ 做出预测的回归函数称之为linear smoother，这个为我们解决回归问题提出了一个新的思路：代替引入一些列基函数（能够隐含地决定kernel function），我们能够直接定义一个localized kernel $k(\vec x,\vec x_{n})$ ，并且利用 $y(\vec x)=\sum_{n=1}^{N}k(\vec x,\vec x_{n})t_{n}$ 将训练集目标变量线性组合以此来给出新的输入矢量 $\vec x$ 的预测。另外内核函数应满足 $\sum_{n=1}^{N}k(\vec x,\vec x_{n})=1$ 这一性质。

四：The Evidence Approximation

1：全贝叶斯处理：

$\quad$ 全贝叶斯处理(fully bayesian treatment)不仅要求对参数 $\vec w$ 边际化，还要求对超参数 $\alpha，\beta$ 边际化， $p(t|\vec t)=\int\int\int p(t|\vec w,\beta)p(\vec w|\vec t,\alpha,\beta)p(\alpha,\beta|\vec t)d\vec wd\alpha d\beta$ ，但这三重积分是解析不可解的，虽然我们解析上能够只对参数 $\vec w$ 或者是只对超参数 $\alpha,\beta$ 进行边际化。

2：经验贝叶斯处理

$\quad$ 我们能够使用经验贝叶斯(empirical bayes)来获得全贝叶斯的一种近似处理：先通过最大化边际似然函数 $p(\vec t|\alpha,\beta)$ 来获得对应的超参数值 $\alpha^*,\beta^*$ ，然后在对参数 $\vec w$ 进行边际化， $p(t|\vec t) \approx p(t|\vec t,\alpha^*,\beta^*)=\int p(t|\vec w,\beta^*)p(\vec w|\vec t,\alpha^*,\beta^*)d\vec w$ 。之所以能这样做的原理如下：

$\quad$ 假设后验分布 $p(\alpha,\beta|\vec t)$ 在超参数值 $\alpha^*,\beta^*$ 附近是尖峰分布的，然后全贝叶斯积分能够近似为在超参数 $\alpha,\beta$ 分别取 $\alpha^{*}，\beta^{*}$ 的情况下对参数值 $\vec w$ 积分

p (t | t ⃗) \approx p (t | t ⃗, α *, β *) = \int p (t | w ⃗, β *) p (w ⃗ | t ⃗, α *, β *) d w ⃗

$p(t|\vec t) \approx p(t|\vec t,\alpha^*,\beta^*)=\int p(t|\vec w,\beta^*)p(\vec w|\vec t,\alpha^*,\beta^*)d\vec w$

又由于 $p(\alpha,\beta|\vec t) \propto p(\vec t|\alpha,\beta)p(\alpha,\beta)$ ，如果先验 $p(\alpha,\beta)$ is relatively flat，则我们可以通过最大化边际似然函数 $p(\vec t|\alpha,\beta)$ 来获得超参数值 $\alpha^{*}，\beta^{*}$ 。

边际似然函数 $\ln p(\vec t|\alpha,\beta)=\frac{M}{2}\ln{\alpha}+\frac{N}{2}\ln{\beta}-E(\vec m_{N})-\frac{1}{2}\ln |A|-\frac{N}{2}\ln{2\pi}$ ，分别对 $\alpha,\beta$ 取偏微分，令对应的偏微分值为0，我们可以求出