机器学习的数学基础（1）——贝叶斯方法，贝叶斯推理

最新推荐文章于 2025-04-20 19:59:44 发布

Rouge-Eradiction

最新推荐文章于 2025-04-20 19:59:44 发布

阅读量1k

点赞数 5

分类专栏：机器学习的第一课文章标签：机器学习线性代数概率论

本文链接：https://blog.youkuaiyun.com/rouge_eradiction/article/details/111648835

版权

机器学习的第一课专栏收录该内容

5 篇文章

订阅专栏

机器学习概述

机器学习的一般任务是利用有标记的数据，学习属性（标记）与相应（目标）之间的函数关系，来预测未标记属性输入的相应。
一般按照是否标记分为有监督学习和无监督学习。

1.损失函数的矩阵化

一般我们使用如下的均方损失来计算模型的损失：
$\mathcal{L}=\frac{1}{N} \sum_{n-1}^{N}\left(t_{n}-\mathbf{w}^{\top} \mathbf{x}_{n}\right)^{2}$
注意到当 $\mathbf{x}$ 的元素变多时，损失的计算就会非常复杂，同时也为了让计算机计算方便我们要将上式变为向量和矩阵的形式：
$\mathcal{L}=\frac{1}{N}(\mathbf{t}-\mathbf{X} \mathbf{w})^{\top}(\mathbf{t}-\mathbf{X} \mathbf{w})$
其中有：
$\mathbf{X}=\left[\begin{array}{c} \mathbf{x}_{1}^{\top} \\ \mathbf{x}_{2}^{\top} \\ \vdots \\ \mathbf{x}_{N}^{\top} \end{array}\right]=\left[\begin{array}{cc} 1 & x_{1} \\ 1 & x_{2} \\ \vdots & \vdots \\ 1 & x_{N} \end{array}\right], \mathbf{t}=\left[\begin{array}{c} t_{1} \\ t_{2} \\ \vdots \\ t_{N} \end{array}\right], \mathbf{w}=\left[\begin{array}{c} w_{1} \\ w_{2} \\ \end{array}\right]$

为了理解这个变化我们首先记住两个细节，在第一个式子中，预测值 $\mathbf{w}^{\top} \mathbf{x}_{n}$ 中系数参数向量转置后与 $\mathbf{x}$ 矩阵相乘，其实这里的顺序并没有所谓，因为得到的是常数，但是在第二个式子中变为 $\mathbf{X} \mathbf{w}$ ，即是 $\mathbf{X}$ 的行乘以 $\mathbf{w}$ 的列，故这里得到了所有与预测值的列向量。之后与真实值的向量做差，转置成为 $1 * n$ 的向量再与 $n * 1$ 的自己相乘得到平方和。.

2.最大似然估计

极大似然法的想法十分自然，当某种现象可能由多个原因中的一个造成时，我们认为是可能性最大的哪一种。所以，这种估计法就是要取可能性最大的那个参数作为参数的估计。
若总体为离散的总体，样本的二重性可以解释为：
$\left.\{ X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right\}$
这时，上式的概率为：
$P\left|X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right|=\prod_{i=1}^{n} P\left\{X_{i}=x_{i}\right\}=\prod_{i=1}^{n} f\left(x_{i} ; \theta\right)$
上式中 $\theta$ 为参数。
若总体为连续总体，取一点的概率为0，所谓的样本观察值 $x_1,x_2,...,x_n)$ 落在了一个充分小的邻域内部，此时有
$P\left|\left(X_{1}, X_{2}, \cdots, X_{n}\right) \in \delta\left(x_{1}, x_{2}, \cdots, x_{n}\right)\right| \approx \prod_{n} f\left(x_{i} ; \theta\right) \cdot\left|\delta\left(x_{1}, x_{2}, \cdots, x_{n}\right)\right|$
两种情况可以统一记为：
$L(\theta) \triangleq \prod_{i=1}^{n} f\left(x_{i} ; \theta\right)$
我们将 $L(\theta)$ 称为似然函数。显然对上式来说，观察中样本的观测值是确定的，所以上式就是参数 $\theta$ 的函数。那么依据刚刚讨论的最大似然估计的思想，使得似然函数取最大的参数 $\theta$ 就是我们的点估计结果。
$L(\hat{\theta})=\sup _{\theta\in\Theta} L(\theta)=\sup _{\theta \in \Theta} \prod_{i=1}^{n} f\left(X_{i} ; \theta\right)$
如果似然函数连续可微，则令：
$\frac{dL(\theta)}{d\theta} = 0$
或者可以对似然函数求对数之后再微分。得到的解就时参数的最大似然估计。

3.贝叶斯方法

机器学习中最基础的线性模型，依赖最小二乘法，使用均方损失作为损失函数，可以给出某个具体的目标值，但是有些情况下直接给出一个具体的预测值说服力不足，我们需要给出一系列的可能值做为预测值的候选，并且计算出他们的概率，通常我们会取概率最大的候选值作为预测值。
贝叶斯方法将我们要训练的参数视为变量，这个方法的目的是通过贝叶斯定理求解参数（或者说是后验）的分布。

贝叶斯方法基础

贝叶斯方法依据贝叶斯定理：
$p\left(r \mid y_{N}\right)=\frac{P\left(y_{N} \mid r\right) p(r)}{P\left(y_{N}\right)}$
贝叶斯估计给出一种将先验假设和观测值的统一显式表达形式，贝叶斯方法也给出了在观测数据 $y_n$ 已知后， $r$ 的概率分布。要么使用 $p\left(r \mid y_{N}\right)$ 最大时的 $r$ 值，要么使用期望 $\mathbf{E}_{p\left(r \mid y_{N}\right)}$ 计算分布的期望作为 $r$ 的值。

先验

通常我们需要先验来自我们的假设，有时为了便于分析会选择特定的先验分布。

似然

我们对似然的理解非常重要，似然值表示的是在特定的 $r$ 取值下，观察到数据的可能性，比如在抛硬币时，若硬币向上的概率是0.6，则抛十次硬币，向上次数服从二项分布，而可能性最大是6次。

边缘

边缘密度是通过联合密度积分而来：
$P\left(y_{N}\right)=\int_{r=0}^{r=1} p\left(y_{N}, r\right) d r$
$P\left(y_{N}\right)=\int_{r=0}^{r=1} P\left(y_{N} \mid r\right) p(r) d r$

点估计

略

后验的期望

略

4. 贝叶斯推理

贝叶斯推理应用在贝叶斯方法中先验和似然不共轭时（实际上在实际情况中，共轭是罕见的），后验不可解析，因此我们需要使用近似的方法。
现在我们以常见的二值相应问题为例（二分类问题）：
每个对象的属性是（)相应值是
每个对象的属性是（ $x_1,x_2$ )相应值是 $t, (t = 0 o r 1)$ ,矩阵表示：
$\mathbf{x}_{n}=\left[\begin{array}{l} x_{n 1} \\ x_{n 2} \end{array}\right], \mathbf{w}=\left[\begin{array}{c} w_{1} \\ w_{2} \end{array}\right], \mathbf{X}=\left[\begin{array}{c} \mathbf{x}_{1}^{\top} \\ \mathbf{x}_{2}^{\top} \\ \vdots \\ \mathbf{x}_{N}^{\top} \end{array}\right]$
我们需要一个模型依据已知的标签数据，给未知标签的数据 $x_{new}$ 打标签 $t_{new}$ ，依据贝叶斯定理：
$p(\mathbf{w} \mid \mathbf{t}, \mathbf{X})=\frac{p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}) p(\mathbf{w})}{p(\mathbf{t} \mid \mathbf{X})}$
上式做了一些小小的变换和一般的贝叶斯定理不同，请读者自行推导，然后我们要对先验和似然进行讨论。

先验
我们假设为高斯分布（为了讨论方便），先验不是我们的重点，可以表示为： $p(w|\sigma^2)$
似然
我们首先假设在已知数据中，数据的响应取值是相互条件独立的，并且是依赖于 $w$ 的：
$p(\mathbf{t} \mid \mathbf{X}, \mathbf{w})=\prod_{n=1}^{N} p\left(t_{n} \mid \mathbf{x}_{n}, \mathbf{w}\right)$
由于 $t$ 只有两个取值,设为0和1，用0表示这个点的响应在图上的形状是圆圈，若是1则为正方形，那么样本的二重性可以表示为：
$\left.\{ T_{1}=t_{1}, T_{2}=t_{2}, \cdots, T_{n}=t_{n}\right\},t_i = 0 or 1$
则有
$p(\mathbf{t} \mid \mathbf{X}, \mathbf{w})=\prod_{n=1}^{N} P\left(T_{n}=t_{n} \mid \mathbf{x}_{n}, \mathbf{w}\right)$
现在我们则需要给定一个先验可能符合的分布，使得在 $x_n$ ， $w$ 进行线性变化之后得到一个有效的概率，这个概率我们使用sigmoid函数来获得：
$P\left(T_{n}=1 \mid \mathbf{x}_{n}, \mathbf{w}\right)=\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}$
现在我觉得先介绍基于sigmoid函数的二分类问题会比较容易理解，有：
$\begin{aligned} P\left(T_{n}=0 \mid \mathbf{x}_{n}, \mathbf{w}\right) &=1-P\left(T_{n}=1 \mid \mathbf{x}_{n}, \mathbf{w}\right) \\ &=1-\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)} \\ &=\frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)} \end{aligned}$
为了让 $T_n$ 取不同的值时统一表达，有：
$\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}) &=\prod_{n=1}^{N} P\left(T_{n}=1 \mid \mathbf{x}_{n} \mathbf{w}\right)^{t_{n}} P\left(T_{n}=0 \mid \mathbf{x}_{n}, \mathbf{w}\right)^{1-t_{n}} \\ &=\prod_{n=1}^{N}\left(\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{t_{n}}\left(\frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{1-t_{n}} \end{aligned}$
边缘密度
边缘密度可以写成：
$Z^{-1}=p\left(\mathbf{t} \mid \mathbf{X}, \sigma^{2}\right)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}) p\left(\mathbf{w} \mid \sigma^{2}\right) d \mathbf{w}$
似然作为贝叶斯定理右边的分母，是不能通过解析求解获得的，这是由于sigmoid函数与高斯分布的概率分布相乘的形式太过复杂。那么在这种不共轭的情况下，我们有三种方法：

与最大似然估计的思维相同，我们可以取使得后验最大的参数 $w$ 作为对 $w$ 的估计。
通过其他方法近似 $\mathbf{X}, \mathbf{t},\sigma^2)$
知道 $\mathbf{X}, \mathbf{t},\sigma^2)$ 的情况下对后验进行采样。

第一种方法——最大后验估计
由于贝叶斯定理的分母与参数 $w$ 没有显式联系，则只与分子成正比，可设：
$\mathbf{X}, \mathbf{t}) = p(t| \mathbf{X},w)p(w| \mathbf{X},\sigma^2)$
进而有：
$\log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})=\log p(\mathbf{t} \mid \mathbf{X}, \mathbf{w})+\log p\left(\mathbf{w} \mid \sigma^{2}\right)$
使用之前对似然的推导有：
$\begin{aligned} \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})=& \sum_{n=1}^{N} \log P\left(T_{n}=t_{n} \mid \mathbf{x}_{n}, \mathbf{w}\right)+\log p\left(\mathbf{w} \mid \sigma^{2}\right) \\ =& \sum_{n=1}^{N} \log \left[\left(\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{t_{n}}\left(\frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{1-t_{n}}\right] \\ &+\log p\left(\mathbf{w} \mid \sigma^{2}\right) \end{aligned}$
假设 $w$ 是 $D$ 维的，并且设：
$P_{n}=P\left(T_{n}=1 \mid \mathbf{w}, \mathbf{x}_{n}\right)=\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}$
显然此时有：
$\begin{aligned} \frac{\partial P_{n}}{\partial \mathbf{w}} &=\frac{\partial\left(1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\right)^{-1}}{\partial\left(1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\right)} \frac{\partial\left(1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\right)}{\partial \mathbf{w}} \exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\left(-\mathbf{x}_{n}\right) \\ &=-\frac{1}{\left(1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\right)^{2}} \mathbf{x}_{n} \\ &=\frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{\left(1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)\right)^{2}} \mathbf{x}_{n} \\ &=\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)} \frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}\right)} \mathbf{x}_{n} \\ &=P_{n}\left(1-P_{n}\right) \mathbf{x}_{n} \end{aligned}$
有：
$\begin{aligned} \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t}) &=\log p\left(\mathbf{w} \mid \sigma^{2}\right)+\sum_{n=1}^{N} \log P_{n}^{t_{n}}+\log \left(1-P_{n}\right)^{1-t_{n}} \\ &=-\frac{D}{2} \log 2 \pi-D \log \sigma-\frac{1}{2 \sigma^{2}} \mathbf{w}^{\top} \mathbf{w} \\ &+\sum_{n=1}^{N} t_{n} \log P_{n}+\left(1-t_{n}\right) \log \left(1-P_{n}\right) \end{aligned}$
求一阶导数：
$\begin{aligned} \frac{\partial \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})}{\partial \mathbf{w}} &=-\frac{1}{\sigma^{2}} \mathbf{w}+\sum_{n=1}^{N}\left(\frac{t_{n}}{P_{n}} \frac{\partial P_{n}}{\partial \mathbf{w}}+\frac{1-t_{n}}{1-P_{n}} \frac{\partial\left(1-P_{n}\right)}{\partial \mathbf{w}}\right) \\ &=-\frac{1}{\sigma^{2}} \mathbf{w}+\sum_{n=1}^{N}\left(\frac{t_{n}}{P_{n}} \frac{\partial P_{n}}{\partial \mathbf{w}}-\frac{1-t_{n}}{1-P_{n}} \frac{\partial P_{n}}{\partial \mathbf{w}}\right) \end{aligned}$
带入 $\frac{\partial P_{n}}{\partial \mathbf{w}}$ ，有：
$\begin{aligned} \frac{\partial \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})}{\partial \mathbf{w}} &=-\frac{1}{\sigma^{2}} \mathbf{w}+\sum_{n=1}^{N}\left(\mathbf{x}_{n} t_{n}\left(1-P_{n}\right)-\mathbf{x}_{n}\left(1-t_{n}\right) P_{n}\right) \\ &=-\frac{1}{\sigma^{2}} \mathbf{w}+\sum_{n=1}^{N} \mathbf{x}_{n}\left(t_{n}-t_{n} P_{n}-P_{n}+t_{n} P_{n}\right) \\ &=-\frac{1}{\sigma^{2}} \mathbf{w}+\sum_{n=1}^{N} \mathbf{x}_{n}\left(t_{n}-P_{n}\right) \end{aligned}$
二阶导数：
$\begin{aligned} \frac{\partial^{2} \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})}{\partial \mathbf{w} \partial \mathbf{w}^{\mathrm{T}}} &=-\frac{1}{\sigma^{2}} \mathbf{I}-\sum_{n=1}^{N} \mathbf{x}_{n} \frac{\partial P_{n}}{\partial \mathbf{w}^{\mathrm{T}}} \\ &=-\frac{1}{\sigma^{2}} \mathbf{I}-\sum_{n=1}^{N} \mathbf{x}_{n} \mathbf{x}_{n}^{\top} P_{n}\left(1-P_{n}\right) \end{aligned}$
注意到，我们此时令一阶导数等于0是不能计算出 $w$ 的，因为 $P_n$ 的分布中有 $e^{-w^{T}x}$ ，是无法解析求解的超越方程，此时观察到二阶导数始终是负定的，则一阶导数为0时，后验取得最大值。我们可以用牛顿-拉佛森方法近似求解 $w$ :
在这里插入图片描述
上图是计算机迭代的求解过程，得出结果后，我们可以设定：

当 $P(T_{new} = 1|x_{new},\hat{\textbf{w}})>0.5$ ，划分为正方形类。
当 $P(T_{new} = 0|x_{new},\hat{\textbf{w}})>0.5$ ，划分为圆形类

在这里插入图片描述
上图左是概率为0.5的决策边界，右边是对不同的概率画的斜线。
这种方法的优点是：

很容易找到参数的估计。
适用性很广，不管什么形式组合的先验和似然都可以通过这种方法求解。

缺点是：

我们很难知道我们通过牛顿法逼近求得的参数是不是全局的最优解。

第二种方法——拉普拉斯近似
拉普拉斯估计的基本思路是，用高斯分布来近似目标分布，即参数的后验分布。鉴于我们可以轻松操纵高斯分布（由于它仅有两个参数唯一确定），这似乎是一个明智的选择。但是，我们应该始终请记住，如果真实的分布确实是高斯分布，那我们的预测会和我们的近似值一样好。如果我们的真实后验不是很高斯，我们的预测将很容易计算但不是很准确。
由于在最大似然估计中我们已经计算出了 $w$ 的估计 $\hat{w}$ ，所以我们只需要知道高斯分布的方差即可。
使用泰勒公式对其展开：
$\begin{aligned} \log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right) & \approx \log g\left(\widehat{w} ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)+\left.\frac{\partial \log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)}{\partial w}\right|_{\widehat{w}} \frac{(w-\widehat{w})}{1 !} \\ &+\left.\frac{\partial^{2} \log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)}{\partial w^{2}}\right|_{\widehat{w}} \frac{(w-\widehat{w})^{2}}{2 !}+\ldots \end{aligned}$
在 $\hat{w}$ 上，函数的一阶导数为0，二阶导数已经算出，下面我们将使用一种巧妙的数学技巧来近似计算用于拟合 $\log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)$ 高斯分布的方差：

注意到虽然高斯分布可以写无穷多项，为了利用前两阶导数，我们只取泰勒展开的前三项。设：
$v=-\left.\frac{\partial^{2} \log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)}{\partial w^{2}}\right|_{\hat{w}}$
可得：
$\log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right) \approx \log g\left(\widehat{w} ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)-\frac{v}{2}(w-\widehat{w})^{2}$
对于高斯分布的密度：
$\frac{1}{\sqrt{2\pi}\sigma}\exp{\{-\frac{(w-\mu)^2}{2\sigma^2}\}}$
取对数：
$\log (K)-\frac{1}{2 \sigma^{2}}(w-\mu)^{2}$
$l o g (K)$ 是常数。
与上面的泰勒展开同次数项对应相等。有：
$\boldsymbol{\mu}=\widehat{\mathbf{w}}, \quad \mathbf{\Sigma}^{-1}=-\left.\left(\frac{\partial^{2} \log g(\mathbf{w} ; \mathbf{X}, \mathbf{t})}{\partial \mathbf{w} \partial \mathbf{w}^{\top}}\right)\right|_{\widehat{\mathbf{w}}}$
则有：
$p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \sigma^{2}\right) \approx \mathcal{N}(\boldsymbol{\mu}, \mathbf{\Sigma})$

现在我们需要讨论的是，为什么对 $\log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)$ 的泰勒展开可以估计 $p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \sigma^{2}\right)$ ，首先根据拉普拉斯估计的假设，或者说是好处，我们假设后验的真实分布是高斯分布，并且均值是 $\hat{w}$ ，所以为了达到目的，我们只需要计算方差就可以了。此时 $\log g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)$ 与后验的差距在于前者没有加上分母即边缘，因为分母是与参数 $w$ 无关的常数，所以在对 $g\left(w ; \mathbf{X}, \mathbf{t}, \sigma^{2}\right)$ 取对数之后分母变成了常数项，同时在对后验取对数的时候，我们同样产生了常数项 $\log(K)$ 。不考虑与 $w$ 无关的常数， $w^2$ 的项对应相等，这是正确的，合理的。需要注意的是，在多维的情况下，协方差矩阵的逆等于黑森矩阵。
可惜的是，尽管我们使用高斯分布去拟合后验的分布我们还是不能准确的求出估计在后验上的期望：
$p\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{X}, \mathrm{t}, \sigma^{2}\right)=E_{N(\mu, \Sigma)}\left\{P\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{W}\right)\right\}$
这是由于 $w$ 服从正太分布 $N(\mu, \mathbf{\Sigma})$ ，要求：
$E(sigmoid(x_{new})) = E(\frac{1}{-\exp{\{-w^Tx_{new}\}}}) \\ = \int P\left(T_{\text {new }}=1 \mid \mathbf{x}_{\text {new }}, \mathbf{w}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \sigma^{2}\right) d \mathbf{w} \\ = \int \frac{1}{\sqrt{2\pi}\mathbf{\Sigma}}\exp{\{-\frac{(w-\hat{w})^2}{2\mathbf{\Sigma}^T\mathbf{\Sigma}}\}}\frac{1}{-\exp{\{-w^Tx_{new}\}}}dw$
没法积分，我们只能在求得高斯分布上取点求平均作为对期望的估计：
$P\left(T_{\text {new }}=1 \mid \mathbf{x}_{\text {new }}, \mathbf{X}, \mathbf{t}, \sigma^{2}\right)=\frac{1}{N_{s}} \sum_{s=1}^{N_{s}} \frac{1}{1+\exp \left(-\mathbf{w}_{s}^{\top} \mathbf{x}_{\text {new }}\right)}$
在这里插入图片描述
上图是拉普拉斯估计得到的边界图，显然与MAP估计相比，不同概率的决策边界不再是直线，这从直观上要更合理一些，但是本方法也存在一些缺点：
12. 近似的步骤太多，包括求 $\hat{w}$ 本身是使用牛顿法近似，泰勒展开忽略了后面的残差项，用高斯分布近似后验等等。导致最后求得的参数不准确。
13. 待探索

第三种方法——抽样方法
通过第二种方法我们知道，即使我们得到了后验的近似，我们也难以直接积分计算期望：
$p\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{X}, \mathrm{t}, \sigma^{2}\right)=E_{N(\mu, \Sigma)}\left\{P\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{W}\right)\right\}$
所幸我们可以通过得到的分布抽样，但是这样未免太过拐弯抹角，我们想直接跳过近似的过程直接抽样，来计算：
$p\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{X}, \mathrm{t}, \sigma^{2}\right)=E_{N(\mu, \Sigma)}\left\{P\left(T_{\text {new }}=1 \mid \mathrm{x}_{\text {new }}, \mathrm{W}\right)\right\}\\ = \int P\left(T_{\text {new }}=1 \mid \mathbf{x}_{\text {new }}, \mathbf{w}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \sigma^{2}\right) d \mathbf{w}$
并且
$P\left(T=1 \mid \mathbf{x}_{\text {new }}, \mathbf{X}, \mathbf{t}, \sigma^{2}\right) \simeq \frac{1}{N_{s}} \sum_{-0}^{N_{s}} P\left(T_{\text {new }}=1 \mid \mathbf{x}_{\text {new }}, \mathbf{w}_{s}\right)$
下面我们介绍Metropolis-Hastings算法，该算法期望生成一系列 $w_i$ ，直到收敛到一个合适的 $w$ 。方法如下：
对上一个抽样样本 $w_{s-1}$ ，我们以一定的步幅生成 $w_{s}$ ：
$p\left(\tilde{\mathbf{w}}_{\mathrm{s}} \mid \mathbf{w}_{\mathrm{s}-1}, \Sigma\right)=N\left(\mathbf{w}_{\mathrm{s}-1}, \Sigma\right)$
这个过程称作随机游走，方差 $\Sigma$ 就是游走的步幅。然后我们要判断这个新生成的 $w_{s}$ 是否能够使用：
首先计算如下的比例 $r$ :
$\begin{aligned} r &=\frac{p\left(\tilde{\mathrm{w}}_{\mathrm{s}} \mid \mathrm{X}, \mathrm{t}, \sigma^{2}\right)}{p\left(\mathrm{w}_{\mathrm{s}-1} \mid \mathrm{X}, \mathrm{t}, \sigma^{2}\right)} \frac{p\left(\mathrm{w}_{\mathrm{s}-1} \mid \tilde{\mathrm{w}}_{\mathrm{s}}, \Sigma\right)}{p\left(\tilde{\mathrm{w}}_{\mathrm{s}} \mid \mathrm{w}_{\mathrm{s}-1}, \Sigma\right)} \\ &=\frac{g\left(\tilde{\mathrm{w}}_{\mathrm{s}} ; \mathrm{X}, \mathrm{t}, \sigma^{2}\right)}{g\left(\mathrm{w}_{\mathrm{s}-1} ; \mathrm{X}, \mathrm{t}, \sigma^{2}\right)}=\frac{p\left(\tilde{\mathrm{w}}_{\mathrm{s}} \mid \sigma^{2}\right)}{p\left(\mathrm{w}_{\mathrm{s}-1} \mid \sigma^{2}\right)} \frac{p\left(\mathrm{t} \mid \tilde{\mathrm{w}}_{\mathrm{s}}, \mathrm{X}\right)}{p\left(\mathrm{t} \mid \mathrm{w}_{\mathrm{s}-1}, \mathrm{X}\right)} \end{aligned}$
由于所有的变量都已知，上式可以显式计算。
不难理解由于对称性：
$\frac{p\left(\mathrm{w}_{\mathrm{s}-1} \mid \tilde{\mathrm{w}}_{\mathrm{s}}, \Sigma\right)}{p\left(\tilde{\mathrm{w}}_{\mathrm{s}} \mid \mathrm{w}_{\mathrm{s}-1}, \Sigma\right)} =1$
你可能很好奇为什么对两个后验之比能够转化为 $\frac{g\left(\tilde{\mathrm{w}}_{\mathrm{s}} ; \mathrm{X}, \mathrm{t}, \sigma^{2}\right)}{g\left(\mathrm{w}_{\mathrm{s}-1} ; \mathrm{X}, \mathrm{t}, \sigma^{2}\right)}$ 之比，这是由于在贝叶斯定理中，等式右边的分母与 $w$ 无关只与 $\mathbf{X},t,\sigma^2$ 有关，所以可以消掉。计算之后按照：

如果 $r > = 1$ ，则 $\mathrm{w}_s = \tilde{\mathrm{w}}_s$ ，接受 $\tilde{\mathrm{w}}_s$ 。
如果 $r < 1$ ，则依概率接受，按照均匀分布随机产生一个 $u$ ，如果 $r > = u$ ，则接受；泛指则不接受。

如果抽样的数量足够多，我们就可以依据抽样的结果估计后验的分布，就是通过样本的平均值作为其期望的估计。下面我们论述MH算法的可行性：
首先要明白我们的目的不是求出最大的后验，而是依概率逼近整个后验的分布。因此MH算法采用了控低不控高的做法，详细来说，当 $w_s$ 漂移时，如果后验大，则接受，即不对大的进行控制；如果小则要依概率进行控制，使得抽烟的结构较为符合计算得到的后验之比。从而在足够多的样本之后可以得到逼近后验的分布。
在这里插入图片描述
使用该算法解决二值响应问题：

最后结果：

总结

当我们学习完贝叶斯方法，贝叶斯定理，朴素贝叶斯分类器之后，我们再回想一下贝叶斯方法的好处：
它提供了显式表达先验和后继样本输入的方法。先验数据就是我们已经知道的标签的数据，它通过先验函数体现，先验函数的构造，参数的获取本身也是一个学习的过程，是对所有已知样本学习的结果。理解先验对理解贝叶斯方法十分重要。
对于不同的问题，对所有已知样本的学习方式（先验的计算方法）是不同的：
第一抛硬币问题
似然满足二项分布，在计算后验时，有：
$p\left(r \mid y_{N}\right)=\frac{P\left(y_{N} \mid r\right) p(r)}{P\left(y_{N}\right)}$
$P\left(y_{N} \mid r\right)=\left[\left(\begin{array}{c} N \\ y_{N} \end{array}\right) r^{y_{N}}(1-r)^{N-y_{N}}\right]$
在抛硬币中，已知抛了 $N$ 次，有 $y_n$ 正面朝上，后验表示为二项分布取 $y_n$ 的概率。
第二二值响应问题
为了得到统一的后验，将 $t_n$ 的两种取值情况统一在一起：
$\begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}) &=\prod_{n=1}^{N} P\left(T_{n}=1 \mid \mathbf{x}_{n} \mathbf{w}\right)^{t_{n}} P\left(T_{n}=0 \mid \mathbf{x}_{n}, \mathbf{w}\right)^{1-t_{n}} \\ &=\prod_{n=1}^{N}\left(\frac{1}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{t_{n}}\left(\frac{\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}{1+\exp \left(-\mathbf{w}^{\top} \mathbf{x}_{n}\right)}\right)^{1-t_{n}} \end{aligned}$
已知所有点的分类，将所有的似然值乘在一起。
第三文本分类问题
在文本分类的问题中，我们已知的标签数据是十万条已经被分好类的新闻，我们要估计的参数似乎不是那么明显，实际上我们要估计的参数是每一类新闻的词概率向量 $\mathbf{q}$ 。由于新闻的分类有20类，这样就不能用像在二值响应问题中使用数学技巧将它们写在一起了，我们的处理方式是对每一类新闻都求参数 $\mathbf{q}$ 。写出每一类的似然函数：
$L=\prod_{n=1}^{N_c}P(X_n=\mathbf{x}_n)=\prod_{n=1}^{N_c}[(\frac{S_n !}{\prod_{m=1}^{M} x_{nm} !}) \prod_{m=1}^{M} q_{m}^{x_{nm}}]$
这里的 $\mathbf{x}_n$ 是指的某一类（假设是 $c$ ）的所有新闻的文本向量。自然，这里的 $N_c$ 指的是 $c$ 类的新闻的数量。

为了求解参数我们使用了两种方法，第一是最大似然方法，第二是贝叶斯方法。这给了在机器学习中挣扎的我们很重要的启示。似乎所有的能使用贝叶斯方法求参数的问题，都可以基于似然使用最大似然方法求解。比如抛硬币的问题，我们就可以将点估计 $r=\frac{y_N}{N}$ 作为我们对参数的估计。第二，你可能现在对贝叶斯方法中“一切皆随机”有了新的认识，不同于最大似然估计中将参数视为静止不变的量，贝叶斯方法中，增加了能动的可能。
这个能动似乎就是指后继的数据，那么后继的数据是如何在贝叶斯定理中发挥作用的呢？