数学基础：变分推断

原创已于 2025-10-08 18:35:10 修改 · 693 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #python #人工智能 #自然语言处理 #动态规划 #机器学习 #神经网络

于 2025-10-08 12:06:00 首次发布

算法同时被 2 个专栏收录

18 篇文章

订阅专栏

机器学习

8 篇文章

订阅专栏

【投稿赢 iPhone 17】「我的第一个开源项目」故事征集：用代码换C位出道！ 10w+人浏览 1.6k人参与

贝叶斯估计

贝叶斯推断方法
变分推断
总结

贝叶斯推断方法

从贝叶斯公式说起，在概率论中接触过贝叶斯，然后最著名的还是贝叶斯公式求条件概率
$p(A|B)=\frac{p(B|A)}{p(B)}.p(A)$
上面公式的理解：在给出先验信息之前事件A发生的概率为p(A)，当我们有个先验信息B，那么就可以去修正A， $\frac{p(B|A)}{p(B)}$ 就可以被看作是信息。
上面是对离散型随机变量，对于连续型随机变量需要引入概率密度函数。

假设一：随机变量X有一个密度函数 $p(x;\theta)$ ，其中 $\theta$ 是一个参数，不同的 $\theta$ 对应不同的密度函数，故从贝叶斯观点看， $p(x;\theta)$ 是在给定 $\theta$ 后是一个条件密度函数，因此记为 $p(x|\theta)$ 更恰当一些。这个条件密度能提供的有关 $\theta$ 的信息就是总体信息
假设二：当给定 $\theta$ 后，从总体 $p(x|\theta)$ 中随机抽取样本 $X_1,...,X_n$ ，该样本中含有 $\theta$ 的有关信息。这种信息就是样本信息。
假设三：我们对参数 $\theta$ 已经积累了很多资料，经过分析、整理和加工，可以获得一些有关 $\theta$ 的有用信息，这种信息就是先验信息。参数 $\theta$ 不是永远固定在一个值上，而是一个事先不能确定的量。从贝叶斯的观点来看，未知参数 $\theta$ 是一个随机变量。而描述这个随机变量的分布可以从先验信息中归纳出来，这个分布称为先验分布，其密度函数用 $\pi(\theta)$

概念：
先验分布：将总体中的未知参数 $\theta \in \Theta$ 看成一取值于 $\Theta$ 的随机变量，它有一概率分布，记为 $\pi(\theta)$ ，称为参数 $\theta$ 的先验分布。
后验分布：在贝叶斯统计学中，把上面总体、样本、先验信息归纳起来的最好形式就是在总体分布基础上获得样本 $X_1,...,X_n,$ 和参数的联合密度函数
$p(x_1,...,x_n,\theta)=p(x_1,...,x_n|\theta)\pi(\theta)$ ，在这个联合密度函数中，样本给后，我们关心的是参数 $\theta$ 的条件密度函数。
将上面公式中的样本和参数位置互换得到 $\pi(\theta|x_1,...,x_n)=\frac{p(x_1,...,x_n,\theta)}{p(x_1,...,x_n)}$ ，再用上面的公式将联合概率密度替换。
$\pi(\theta|x_1,...,x_n)=\frac{p(x_1,...,x_n,\theta)}{p(x_1,...,x_n)}\\=\frac{p(x_1,...,x_n|\theta)\pi(\theta)}{\int p(x_1,...,x_n| \theta)\pi(\theta)d\theta}$

上面的公式就是贝叶斯推断，在贝叶斯推断中，核心目标是求后验分布：
上面公式中每项的含义

$\theta$ ：参数或隐变量
$x_1,....,x_n$ ：观测到的数据
$\pi_{\theta}$ ：是先验分布
$p(x_1,...,x_n|\theta)$ ：是似然函数
$\pi(\theta|x_1,...,x_n)$ ：是后验分布
$\int p(x_1,...,x_n|\theta)\pi(\theta)d\theta$ ：边缘似然和证据，是一个归一化常数

对于贝叶斯推断来说， $\pi_{\theta}$ 是先验分布，是已知的，似然函数 $p(x_1,...,x_n|\theta)$ 是似然函数，也是已知的，边缘似然也是可以通过积分得到的，于是后验分布就可以求得。

但是贝叶斯推断存在一个问题，对于高维参数 $\theta$ ，边缘似然需要进行高维积分，这通常来说是难以计算的，于是便有了后文。

变分推断

变分推断是一种解决上面高维积分难以计算，进而难以计算后验分布的解决方案。
变分推断的核心思想是用一个简单的、参数化的分布族q(z)来近似真实后验p(z|x)，并通过最小化p(z|x)和q(z)之间的距离来找到最佳的近似，这里我们更关心的是后验分布，对贝叶斯推断进行变形
$p(z|x)=\frac{p(x,z)}{p(x)}\\=\frac{p(x|z)p(z)}{p(x)}$
这里x是观测数据（已知），z是隐变量或参数，p(x,z)是联合分布， $p(z)=\int p(x,z)dz$ 是边缘似然。
这里的距离通常用KL散度（Kullback-Leibler Divergence）衡量
$KL(q(z)||p(z|x))=\int q(z) log\frac{q(z)}{p(z|x)}dz$

在这里其实我是有一个疑问的，我们希望的是用q(z)分布去逼近p(z|x)分布，这里的KL散度我原来认为应该写作 $K L (p (z ∣ x) ∣∣ q (z))$ ，这样好像是更合理一点，但实际上我们可以利用下面推导的结论代换一下这个散度，得到的结果应该是 $KL(p||q)=\mathbb{E}_p[\log p(z|x) - \log q(z)]$ ，而对于p(z|x)分布我们是不知道的就更不可能求这个期望，但是q(z)是我们选择的分布用于近似p(z|x)，是可以计算的，于是乎就可以计算 $K L (p (z ∣ x) ∣∣ q (z))$ 这个散度。

我们希望最小化这个KL散度，但是问题是 $p (z ∣ x)$ 是未知的，直接优化这个散度是不可行的，于是需要做一下数学推导
$KL(q(z)||p(z|x))=\int q(z) \log \frac{q(z)}{p(z|x)}dz\\=\int q(z)\log q(z)dz-\int q(z)\log p(z|x)dz \\=\mathbb{E}_q[\log q(z)]-\mathbb{E}_q[\log p(z|x)]$
将贝叶斯公式 $p(z|x)=\frac{p(x,z)}{p(x)}$ 代入
$\mathbb{E}_q[\log q(z)]-\mathbb{E}_q[\log p(z|x)] \\=\mathbb{E}_q[\log q(z)]-\mathbb{E}_q[\log p(x,z)] + \mathbb{E}_q[p(x)]\\=\mathbb{E}_q[\log q(z)]-\mathbb{E}_q[\log p(x,z)] + p(x)$
于是整理的到
$\log p(x) = \mathbb{E}_q[\log p(x,z)]-\mathbb{E}_q[\log q(z)] + KL(q(z)||p(z|x))$

其中 $\mathbb{E}_q[\log p(x,z)]-\mathbb{E}_q[\log q(z)]$ 被称为证据下界(Evidence Lower Bound, ELBO)
为因 $KL\geq 0 所以ELBO\leq \log p(x)$ .

由于 $\log p(x)$ 是与 $q (z)$ 无关的常数，于是最小化KL散度就等价于最大化ELBO，因此任务的目标进一步变为寻找一个 $q (z)$ 使得ELBO最大，由于ELBO和q有关于是我们将其记为 $L (q)$
$q^{*}(z)=\arg \max _{q\in Q}L(q)$
其中Q就是我们选择的近似分布族。

分布族是指具有相同函数形式、但由一组参数控制的一类概率分布的集合。
换句话说，它是一个“模板”或“模型类”，通过调整参数就能得到该族中的不同具体分布。

分布族	参数	具体示例
高斯分布族（正态分布族）	均值 $\mu，方差 \sigma$	$\mathcal{N}(0,1)、\mathcal{N}(2,0.5)$
指数分布族	速率 $\lambda$	Exp(1), Exp(0.2)

关于 $q^*(z)$ 的求解传统变分推断是通过手动推导q(z)的更新公式（平均场变分推断中的坐标上升变分推断CAVI）这是一种方法
但是在复杂模型如深度生成模型中，主要是利用神经网络来参数化变分分布 $q_{\phi}(z|x)$ ，并通过梯度优化自动学习最优近似后验。

基本思路：用神经网络参数化q(z)
这里不再假设q(z)是某个简单分布族，而是让神经网络根据输入数据x，动态输出隐变量z的近似后验分布的参数
$q_{\phi}(z|x)=由神经网络\phi定义的分布$

$\phi$ ：神经网络的参数
输入：观测数据x
输出：分布 $q_{\phi}(z|x)$ 的参数

目标：最大化ELBO
$L(\phi)=\mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)+\log p(z) - \log q_{\phi}(z|x)]$

$p_{\theta}(x|z)$ ：生成模型（decoder），通常也有神经网络参数化
p(z)：先验（ $\mathcal{N}(0,I)$ ）
$q_{\phi}(z|x)$ ：推理网络（encoder），即我们要学习的q

最后就是对 $\mathbb{E}_{q_{\phi}}$ 求梯度
$\nabla_{\phi} \mathbb{E}_{q_{\phi(z)}}[f(z)]=\mathbb{E}_{q_{\phi(z)}}[f(z) \nabla_{\phi} \log q_{\phi}(z)]$
上面的REINFORCE梯度方差大难以优化可以通过重参数技巧，总之最后可以求解。