PRML第三章读书笔记——Linear Models For Regression 几何解释、多重共线性、贝叶斯线性回归、贝叶斯模型比较/模型证据/边缘似然、线性回归证据近似/参数有效数量

最新推荐文章于 2021-06-01 20:33:55 发布

原创

最新推荐文章于 2021-06-01 20:33:55 发布 · 771 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归

本文深入解析了《模式识别与机器学习》第三章线性回归的内容，涵盖了线性基函数模型、贝叶斯线性回归、模型比较、证据近似及参数的有效数量等关键概念。

（拖了8个多月，我终于又开始读PRML了。从年初到现在，中间被很多其他事情耽搁了，包括读CVMLI、重学线性代数、刷闫令琪老师的CG Games101、读花书，等等……终于轮到PRML了，开心的一批。这回尽量每周读一章，嗯，尽量……）

第3章 Linear Models For Regression

3.1 Linear Basis Function Models
- - P143 线性回归的几何解释
  - P143 多重共线性
3.3 Bayesian Linear Regression
- - P156 贝叶斯线性回归形式化
  - P159 等价核Equivalent kernel
3.4 Bayesian Model Comparison
3.5 The Evidence Approximation
- - P165 线性基函数模型的证据近似
  - P170 参数的有效数量

3.1 Linear Basis Function Models

P143 线性回归的几何解释

记训练集标注为 $\bf t = (t_1, ..., t_N)^T$ ，并构成标注空间 $\mathbb R^N$ ， $\mathcal{S}$ 是能在训练集的标注空间中用广义线性回归张成的超平面

这里线性回归的基可以是带核 $\varphi (X)$ 的，实际上带核的仍然是张成超平面，而不是曲面，超平面的第 $i$ 个基由 $\varphi_i(X)$ 决定， $\varphi_i$ 表示第 $i$ 个特征， $X$ 表示所以的N个数据。
这样线性回归是求了标注空间中训练集所在位置在超平面上的投影，垂直距离即为最小二乘的结果。

P143 多重共线性

之前只知道多重共线性不好，到底哪里不好一直说不清楚。这里把它讲清楚。
多重共线性的灾难在于参数值爆炸。

我们记训练集（经过核变换后）为 $\Phi \in \mathbb{R}^{N \times M}$ ，其中 $M$ 是特征维度。用 $r(\cdot)$ 表示秩， $r(\Phi)<M$ 时，即产生了多重共线性问题，也即特征之间线性相关。注意到 $r(\Phi) = r(\Phi^T \Phi) = r(\Phi \Phi^T)$ ，（注：方法为证明 $\Phi x =0$ 与 $\Phi^T \Phi x= 0$ 同解）。所以如何判断 $r(\Phi)$ 与 $M$ 的关系，只需要计算 $\Phi^T \Phi$ 是否奇异。
实际上，如果 $\Phi^T \Phi$ 接近奇异，即行列式很小，那么线性回归的参数闭式解 $(\Phi^T \Phi)^{-1} \Phi^T \bf t$ 会非常大。
从几何角度解释，即两个基向量方向非常近，那么为了表达出与这两个基向量几乎垂直的方向上的位置，这两个向量需要不断抵消，系数会增长非常快！

3.3 Bayesian Linear Regression

参考博客频率学派 vs 贝叶斯学派

P156 贝叶斯线性回归形式化

贝叶斯回归中，不断加样本，精确度矩阵的正定性会越强。
$\begin{aligned} p( \textbf t| \textbf X, \textbf w,\beta) &=\prod_{n=1}^N \mathcal (t_n| \textbf w^T\phi(\textbf x_n), \beta^{-1}) \\ p( \textbf w) &=\mathcal N( \textbf w|\textbf m_0, \textbf S_0) \end{aligned}$
可以得到参数后验分布
$\begin{aligned} p(\textbf w| \textbf t) &=\mathcal N (\textbf w|\textbf m_N,\textbf S_N) \\ \textbf m_N&=\textbf S_N(\textbf S_0^{-1} \textbf m_0+\beta {\Phi}^T \textbf t) \\ \textbf S_N^{-1} &=\textbf S_0^{-1}+ \beta \Phi^T\Phi \end{aligned}$
常取 $\textbf m_0 = 0$ ， $\textbf S_0=\alpha ^{-1}\textbf I$ ，所以
$\begin{aligned} \textbf m_N &=\beta \textbf S_N \Phi^T \textbf t \\ \textbf S_N^{-1} &=\alpha \textbf I + \beta \Phi ^T \Phi \end{aligned}$

最低0.47元/天解锁文章