证据下界（Evidence Lower Bound，ELBO）

原创

已于 2025-04-29 17:12:15 修改 · 1.2k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#ELBO #EM算法 #VAE

于 2025-04-28 01:33:48 首次发布

1. 背景：为什么需要ELBO？

贝叶斯推断的挑战

在概率模型中，我们通常需要处理两类变量：

观测变量 $x$ ：直接可观测的数据，例如图片像素、文本单词。
潜在变量 $z$ ：隐藏的、不可直接观测的变量，代表数据的内在结构，例如图片的类别、内容的语义。

我们希望通过贝叶斯推断，计算后验分布 $p (z ∣ x)$ ，即给定数据 $x$ 时，潜在变量 $z$ 的概率分布：
$\frac{p(x, z)}{p(x)} = \frac{p(x|z)p(z)}{\int p(x|z)p(z) dz}$

$p (x ∣ z)$ ：似然，描述 $z$ 如何生成 $x$ 。
$p (z)$ ：先验，描述 $z$ 的分布（通常假设为简单分布，如标准正态分布）。
$p (x)$ ：边际似然（也称“证据”），是联合分布 $p (x, z)$ 对 $z$ 的积分。

问题：计算 $\int p(x|z)p(z) dz$ 非常困难，因为：

高维积分：当 $z$ 是高维变量时，积分无法解析求解。
复杂模型：在深度学习中， $p (x ∣ z)$ 可能是神经网络，积分更是无从下手。

这导致我们无法直接计算 $p (z ∣ x)$ ，需要一种近似方法。

变分推断的引入

变分推断（Variational Inference）是一种解决贝叶斯推断难题的方法。其核心思想是：

不直接计算复杂的 $p (z ∣ x)$ ，而是用一个简单、参数化的分布 $qϕ(z∣x)q_\phi(z|x)$ （称为变分分布）来近似它。
通过优化参数 $ϕ\phi$ ，使 $qϕ(z∣x)q_\phi(z|x)$ 尽可能接近 $p (z ∣ x)$ 。

衡量“接近”的标准通常是 KL散度（Kullback-Leibler Divergence）：
$DKL(qϕ(z∣x)∥p(z∣x))=Eqϕ(z∣x)[log⁡qϕ(z∣x)p(z∣x)]D_{KL}(q_\phi(z|x) \| p(z|x)) = \mathbb{E}_{q_\phi(z|x)}\left[\log \frac{q_\phi(z|x)}{p(z|x)}\right]$
目标是找到 $ϕ\phi$ ，使KL散度最小化。但直接最小化KL散度需要知道 $p (z ∣ x)$ ，这又回到了原问题。

ELBO的角色：ELBO提供了一个间接的方法，通过最大化一个目标函数（即ELBO），同时：

逼近 $p (z ∣ x)$ 。
提高数据的边际似然 $log⁡p(x)\log p(x)$ 。

2. ELBO是什么？

直观解释与类比

你可以将ELBO想象为一个“替代目标”。我们真正想要的是计算 $log⁡p(x)\log p(x)$ （数据的概率），但这太难了。ELBO就像一个“更容易计算的近似目标”，它保证：

ELBO的值总是小于或等于 $log⁡p(x)\log p(x)$ （因此称为“下界”）。
最大化ELBO会使我们的近似分布 $qϕ(z∣x)q_\phi(z|x)$ 更接近真实后验 $p (z ∣ x)$ 。

类比：

假设你想爬一座山（目标是到达山顶，代表 $log⁡p(x)\log p(x)$ ），但山路崎岖，直接爬很困难。
ELBO就像一条“绕路的平坦小路”（下界），虽然不会直接带你到山顶，但通过不断优化这条小路，你会越来越接近山顶，同时避开了复杂的计算。

数学定义

ELBO的数学表达式为：
$L(θ,ϕ;x)=Eqϕ(z∣x)[log⁡pθ(x∣z)]−DKL(qϕ(z∣x)∥pθ(z))\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) \| p_\theta(z))$
其中：

$θ\theta$ ：生成模型 $pθ(x∣z)p_\theta(x|z)$ 和先验 $pθ(z)p_\theta(z)$ 的参数。
$ϕ\phi$ ：近似后验 $qϕ(z∣x)q_\phi(z|x)$ 的参数。
$Eqϕ(z∣x)[log⁡pθ(x∣z)]\mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]$ ：重构项，衡量生成数据的质量。
$DKL(qϕ(z∣x)∥pθ(z))D_{KL}(q_\phi(z|x) \| p_\theta(z))$ ：KL散度项，衡量近似后验与先验的差异。

直观理解：

重构项：从 $qϕ(z∣x)q_\phi(z|x)$ 采样 $z$ ，用 $pθ(x∣z)p_\theta(x|z)$ 生成数据，查看生成的 $x$ 与真实 $x$ 的接近程度。
KL散度项：确保 $qϕ(z∣x)q_\phi(z|x)$ 不偏离先验 $pθ(z)p_\theta(z)$ 太远，相当于一种“正则化”。

3. ELBO的详细数学推导

为了让你彻底理解ELBO，我将一步步推导，尽量清晰且详细。我们从贝叶斯推断的目标开始。

目标：计算边际似然

我们希望计算数据的边际似然：
$\int p(x, z) dz = \int p(x|z)p(z) dz$
取对数：
$log⁡p(x)\log p(x)$
这是我们优化的最终目标，但积分难以计算。

引入变分分布

我们引入一个变分分布 $qϕ(z∣x)q_\phi(z|x)$ 来近似后验 $p (z ∣ x)$ 。用KL散度衡量两者的差异：
$DKL(qϕ(z∣x)∥p(z∣x))=Eqϕ(z∣x)[log⁡qϕ(z∣x)p(z∣x)]D_{KL}(q_\phi(z|x) \| p(z|x)) = \mathbb{E}_{q_\phi(z|x)}\left[\log \frac{q_\phi(z|x)}{p(z|x)}\right]$