拉普拉斯过程与相关向量机:贝叶斯核方法的深入探索
1. 引言
在贝叶斯估计中,先前考虑的先验分布大多是与数据无关的,即 $p(f)$ 不依赖于 $X$。但在实际应用中,这种选择并非总是最优,因此我们开始研究与数据相关的先验分布 $p(f|X)$,这在一定程度上拓展了贝叶斯估计的常用概念。
2. 拉普拉斯过程
2.1 数据相关先验
在之前的推导中,我们假设 $X$ 和 $f$ 是独立随机变量,得到了相应的结果。现在,我们去掉这个限制重新推导,得到:
- $p(Y|f, X)p(f|X) = p(Y, f|X)$(式 16.87)
- $p(f|Y, X)p(Y|X) = p(Y, f|X)$(式 16.88)
结合这两个方程,我们得到修改后的贝叶斯规则:
$p(Y|f, X)p(f|X) = p(f|X, Y)p(Y|X)$(式 16.89)
进而可得:
$p(f|X, Y) = \frac{p(Y|f, X)p(f|X)}{p(Y|X)}$(式 16.90)
由于 $p(Y|X)$ 与 $f$ 无关,我们可以将其视为归一化因子,重点关注 $p(Y|f, X)p(f|X)$ 进行推断。
我们研究一类在系数空间中表示的先验分布:
$p(f|X) \propto \exp\left(-\sum_{i = 1}^{m}\Phi(\beta_i)\right)$,其中 $f(x) = \sum_{i = 1}^{m}\beta_ik(x_i, x)$(式 16.91)
常见的依赖于 $x_i$ 位置的先验分布有:
- $\Phi(\beta) = 1 - e^{-\beta^p}$,$p > 0$(特征选择先验,式 16.92)
- $\Phi(\beta) = \beta^2$(权重衰减先验,式 16.93)
- $\Phi(\beta) = |\beta|$(拉普拉斯先验,式 16.94)
特征选择先验是凹函数,对应的优化问题有许多局部极小值,但如果选择线性损失函数,正则化风险泛函会变为严格凹函数,优化会更可行。权重衰减先验常用于贝叶斯神经网络,假设系数独立正态分布。拉普拉斯先验假设只有少数基函数非零,对应的估计器称为拉普拉斯过程。它有两个显著优点:导致凸优化问题,且积分 $\int p(\beta)d\beta$ 有限,可进行归一化。
对于拉普拉斯先验,最大后验(MAP)估计可以通过最小化负对数后验得到:
$-\sum_{i = 1}^{m}\ln p(y_i|f(x_i), x_i) + \sum_{i = 1}^{m}|\beta_i|$(式 16.96)
根据 $\ln p(y_i|f(x_i), x_i)$ 的形式,这个问题可以表述为线性规划或二次规划。
2.2 先验样本
为了说明这些先验对应有用的函数类,我们从先验分布中生成样本。与高斯过程类似,平滑的核 $k$ 对应平滑的先验。不同的是,我们不需要担心核 $k$ 是否满足 Mercer 条件,可以使用任意函数 $k(x, x’)$ 生成拉普拉斯过程。我们从以下三个核中抽取样本:
- 高斯径向基函数(RBF)核:$k(x, x’) = e^{-\frac{|x - x’|^2}{2\sigma^2}}$(式 16.97)
- 拉普拉斯 RBF 核:$k(x, x’) = e^{-|x - x’|}$(式 16.98)
- 神经网络核:$k(x, x’) = \tanh(\kappa\langle x, x’\rangle + \tau)$(式 16.99)
前两个核也可用于高斯过程估计,但神经网络核不满足 Mercer 条件,不能直接用于高斯过程。
2.3 预测
使用拉普拉斯先验的一个目标是实现展开的稀疏性,因此使用贝叶斯平均方案计算后验分布的均值不太合适,因为该方案会导致大多数系数非零。我们选择获取分布的模式(MAP 估计)。
后验概率与 $p(f|X, Y) \propto p(Y|f, X)p(f|X)$ 成正比。为了进行推断,我们将寻找 MAP 估计的问题表述为优化问题:
$\text{minimize} \sum_{i = 1}^{m}-\ln p(\epsilon_i) + \sum_{i = 1}^{m}\Phi(\beta_i)$
$\text{subject to } K\beta = y$(式 16.103)
其中 $K_{ij} = k(x_i, x_j)$。对于不同的损失函数,这个问题可以转化为线性规划或二次规划。
2.4 高斯噪声的置信区间
贝叶斯建模的一个关键优势是可以获得预测的显式置信区间。对于高斯噪声,由于 $\Phi(\beta_i) = |\beta_i|$ 在 0 处不可微,不能直接使用 MAP 估计进行显式有意义的展开。我们通过以下修改进行近似计算:
- 忽略所有 $\beta_{MAP,i} = 0$ 的变量。
- 将剩余变量用线性近似替换。
经过这些修改,我们可以得到预测的近似正态分布。
2.5 数据无关的表述
虽然式(16.91)自然地描述了估计器的行为,但我们也可以找到一个等价的数据无关表述:
$p(y) \propto \exp\left(-\sum_{i = 1}^{m}\Phi([K^{-1}y]_i)\right)$(式 16.107)
一些先验分布,如拉普拉斯先验和权重衰减先验,可以解释为高斯过程中度量的变化。
2.6 等价的高斯过程
在大样本极限下,对于每个带有系数先验的核展开,都存在一个等价的高斯过程。定理 16.9 表明,随机变量 $y(x) = \frac{1}{\sqrt{m}}\sum_{i = 1}^{m}\beta_ik(x_i, x)$ 在 $m \to \infty$ 时收敛到一个均值为 0,协方差函数为 $\tilde{k}(x, x’) = \int k(x, \bar{x})k(x’, \bar{x})p(\bar{x})d\bar{x}$ 的高斯过程。
3. 总结
拉普拉斯过程通过引入数据相关的先验分布,为贝叶斯估计提供了更灵活的建模方式。它在预测和置信区间计算等方面有独特的方法,并且在大样本极限下与高斯过程存在联系。以下是拉普拉斯过程的主要特点总结表格:
|特点|描述|
| ---- | ---- |
|数据相关先验|考虑数据位置对先验分布的影响|
|先验样本|可使用多种核生成样本,不依赖 Mercer 条件|
|预测|采用 MAP 估计,可转化为优化问题|
|置信区间|通过修改近似计算|
|数据无关表述|存在等价的表述方式|
|等价高斯过程|大样本极限下与高斯过程等价|
mermaid 流程图展示拉普拉斯过程的主要步骤:
graph LR
A[数据相关先验] --> B[先验样本生成]
B --> C[预测(MAP 估计)]
C --> D[置信区间计算]
A --> E[数据无关表述]
A --> F[等价高斯过程]
通过这些方法,拉普拉斯过程在贝叶斯核方法中展现出了强大的建模能力和应用潜力。
4. 相关向量机
4.1 基本思想
Tipping 提出了一种方法,在保持回归和分类问题的贝叶斯可解释性的同时,获得稀疏解。其基本思想是在确定单个展开系数 $\beta_i$ 的先验 $p(\beta_i)$ 时大量使用超参数。具体来说,假设 $\beta_i$ 服从方差可调的正态分布,通过一个最可能值为 0 的超参数来确定方差,使 $\beta_i$ 的分布集中在 0 附近。先验分布的解析表达式为:
$p(\beta_i|s_i) = \sqrt{\frac{s_i}{2\pi}}\exp\left(-\frac{\beta_i^2}{2s_i}\right)$(式 16.114)
其中 $s_i > 0$ 是超参数,对应的超先验可以是 $p(s_i) = \frac{1}{s_i}$(对数尺度上的平坦超先验)或 $p(s_i) = \Gamma(s_i|a, b)$(Gamma 分布)。Gamma 分布的表达式为:
$\Gamma(s_i|a, b) = \frac{s_i^{a - 1}b^a\exp(-s_ib)}{\Gamma(a)}$,$s_i > 0$(式 16.117)
对于非信息性(平坦)先验,通常选择 $a = b = 10^{-4}$。对于回归问题,对加性高斯噪声 $\sigma^2$ 也有类似假设,$p(\tilde{\sigma}^2) = \frac{1}{\tilde{\sigma}^2}$ 或 $p(\tilde{\sigma}^2) = \Gamma(\tilde{\sigma}^2|c, d)$,通常 $c = d = 10^{-4}$。
4.2 带超参数的回归
为了简化,假设存在加性高斯噪声。给定核展开 $t = K\beta$,有:
$p(y|\beta, \sigma^2) = (2\pi\sigma^2)^{-\frac{m}{2}}\exp\left(-\frac{|y - K\beta|^2}{2\sigma^2}\right)$(式 16.118)
定义 $S = \text{diag}(s_1, \cdots, s_m)$,则:
$p(\beta|s) = (2\pi)^{-\frac{m}{2}}|S|^{\frac{1}{2}}\exp\left(-\frac{1}{2}\beta^TS\beta\right)$(式 16.119)
由于 $p(y|\beta, \sigma^2)$ 和 $p(\beta|s)$ 都是高斯分布,我们可以对 $\beta$ 进行积分,得到 $\beta$ 和 $s$ 的条件分布的显式表达式。
$p(\beta|y, s, \sigma^2) = (2\pi)^{-\frac{m}{2}}|\Sigma|^{-\frac{1}{2}}\exp\left(-\frac{1}{2}(\beta - \mu)^T\Sigma^{-1}(\beta - \mu)\right)$(式 16.120)
其中 $\Sigma = (\sigma^{-2}K^TK + S)^{-1}$,$\mu = \sigma^{-2}\Sigma Ky$(式 16.121)
$p(y|s, \sigma^2)$ 是两个正态分布的卷积,其表达式为:
$p(y|s, \sigma^2) = (2\pi)^{-\frac{m}{2}}|\bar{\Sigma}|^{-\frac{1}{2}}\exp\left(-\frac{1}{2}y^T\bar{\Sigma}^{-1}y\right)$(式 16.123)
其中 $\bar{\Sigma} = \sigma^2I + KS^{-1}K^T$。为了进行贝叶斯推断,我们需要计算 $p(y’|y)$,但在大多数情况下这个积分难以处理。在假设 $p(y|s, \sigma^2)p(s)p(\sigma^2)$ 在其模式附近有峰值的情况下,我们可以使用 MAP2 近似:
$p(y’|y) \approx \int p(y’|\beta, s_{MAP}, \sigma^2_{MAP})p(\beta|y, s_{MAP}, \sigma^2_{MAP})d\beta$(式 16.126)
假设我们知道 $s_{MAP}$ 和 $\sigma^2_{MAP}$ 的值,由于式(16.126)中的积分可以看作两个正态分布的卷积,我们可以得到:
$p(y’|y, s_{MAP}, \sigma^2_{MAP}) \sim \mathcal{N}(y^
, \sigma^{2
})$(式 16.127)
其中 $y^
= \sigma^{-2}_{MAP}k^T\Sigma Ky$,$\sigma^{2
} = \sigma^2_{MAP} + k^T\Sigma k$(式 16.128)
4.3 寻找最优超参数
根据文献,最优参数 $s$ 和 $\sigma^2$ 不能从 $(s_{MAP}, \sigma^2_{MAP}) = \text{argmin}
{(s, \sigma^2)}\left{-\ln p(y|s, \sigma^2) - \ln p(s) - \ln p(\sigma^2)\right}$ 中以封闭形式获得。一种可能的解决方案是对目标函数进行梯度下降。
对 Gamma 分布取对数并代入 $p(y|s, \sigma^2)$ 的显式项,得到目标函数的表达式:
$\mathcal{L} = -\ln p(y|s, \sigma^2) - \ln p(s) - \ln p(\sigma^2)$
$=\frac{1}{2}\left{\ln\left|\sigma^{-2}I + KSK^T\right| + y^T\left(\sigma^{-2}I + KSK^T\right)^{-1}y\right} - \sum
{i = 1}^{m}(a\ln s_i - b s_i) - c\ln\sigma^2 + d\sigma^2$(式 16.131)
对式(16.131)求导并令相应项为 0,得到更新规则:
$s_i = \frac{1 - s_i\Sigma_{ii}}{\mu_i^2}$(式 16.132)
$\sigma^2 = \frac{|y - K\mu|^2}{m - \sum_{i = 1}^{m}s_i\Sigma_{ii}}$(式 16.133)
在优化过程中,许多参数 $s_i$ 会趋于无穷大,这意味着相应的 $\beta_i$ 分布强烈集中在 0 附近,我们可以将这些变量从优化过程中剔除,以加快优化速度。也可以使用贪心方法构建预测器,初始化预测器为单个基函数,测试每个新基函数是否能带来改进。
4.4 通过积分得到显式先验
另一种进行推断的方法是对超参数 $s_i$ 进行积分,然后以标准方式处理 $p(\beta_i)$。在当前情况下,可以对超先验进行封闭形式的积分,得到:
$p(\beta_i) = \int p(\beta_i|s_i)p(s_i|a, b)ds_i \propto \left(b + \frac{\beta_i^2}{2}\right)^{-\frac{a + 1}{2}}$(式 16.134)
这是一个关于 $\beta_i$ 的 Student - t 分布,有效先验为 $\Phi(\beta_i) = \left(\frac{a + 1}{2}\right)\ln\left(b + \frac{\beta_i^2}{2}\right)$(式 16.135)
经过重新参数化,$\Phi(\beta_i) = a’ + \ln(1 + b’\beta_i^2)$,$a’, b’ > 0$。这种表示将相关向量机与其他直接在系数空间中编码先验的方法联系起来,但式(16.135)的后验概率有许多局部极小值,基于对数后验优化的估计不太有意义。不过,在大样本极限下,相关向量机收敛到一个核为式(16.110)的高斯过程。
4.5 分类
对于分类问题,我们采用与之前类似的方案,只考虑二分类情况。使用逻辑回归,以 $t = K\beta$ 作为潜在变量的核展开。负对数后验为:
$-\ln p(\beta|y, s) = \sum_{i = 1}^{m}-\ln p(y_i|t(x_i)) - \sum_{i = 1}^{m}\ln p(\beta_i|s_i) + \text{const}$(式 16.136)
与回归不同,我们不能直接最小化式(16.136),需要使用近似方法,如拉普拉斯近似。计算式(16.136)的一阶和二阶导数:
$\nabla_{\beta}\left{-\ln p(\beta|y, s)\right} = Kc + S\beta$(式 16.137)
$\nabla^2_{\beta}\left{-\ln p(\beta|y, s)\right} = K^TCK + S$(式 16.138)
通过迭代应用式(16.58),可以得到 $p(\beta|y, s)$ 的 MAP 估计,并得到 $\beta$ 的更新规则:
$\beta_{new} = \beta_{old} - (K^TCK + S)^{-1}(Kc + S\beta_{old}) = (K^TCK + S)^{-1}K(CK\beta_{old} - c)$(式 16.139)
如果迭代方案收敛,将收敛到负对数后验的最小值。对于更新超参数 $s$,由于不能直接对 $\beta$ 进行积分,我们使用从式(16.138)得到的高斯近似,应用为回归开发的更新规则。
4.6 玩具示例与讨论
以一个对有噪声的 sinc 函数进行回归的玩具示例结束对相关向量机的介绍。相关向量机通过引入超参数,在保持贝叶斯可解释性的同时实现了稀疏解。以下是相关向量机的主要特点总结表格:
|特点|描述|
| ---- | ---- |
|超参数使用|通过超参数确定系数先验,实现稀疏性|
|回归|假设加性高斯噪声,可得到条件分布的显式表达式|
|最优超参数|通过梯度下降或贪心方法寻找|
|显式先验|通过积分得到 Student - t 分布先验|
|分类|使用逻辑回归和拉普拉斯近似|
mermaid 流程图展示相关向量机的主要步骤:
graph LR
A[定义超参数先验] --> B[回归计算条件分布]
B --> C[寻找最优超参数]
C --> D[积分得到显式先验]
A --> E[分类(逻辑回归)]
E --> F[拉普拉斯近似更新参数]
5. 总结与展望
拉普拉斯过程和相关向量机作为贝叶斯核方法的重要组成部分,为机器学习中的回归和分类问题提供了强大的工具。拉普拉斯过程通过数据相关先验,在大样本极限下与高斯过程建立联系,提供了灵活的建模方式。相关向量机则通过超参数的使用,在保持贝叶斯可解释性的同时实现了稀疏解。
未来的研究可以进一步探索这些方法在不同领域的应用,如计算机视觉、自然语言处理等。同时,优化算法的改进和对超参数选择的深入研究也将有助于提高这些方法的性能和实用性。通过不断的研究和实践,我们有望在贝叶斯核方法领域取得更多的突破和进展。
超级会员免费看
18

被折叠的 条评论
为什么被折叠?



