【扩散模型】（一）变分推断基础

原创已于 2023-07-21 12:59:19 修改 · 647 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #深度学习 #神经网络 #stable diffusion

于 2023-07-15 23:29:44 首次发布

文章介绍了变分贝叶斯方法在处理扩散模型时的角色，如何用高斯分布作为先验，以及如何通过近似计算后验概率。重点讨论了使用KL散度作为优化目标和证据下界(ELBO)的概念，以及在坐标下降法中如何逐个优化参数分布。

扩散模型需要一点变分贝叶斯的知识，基本出于功利性目的，停留在浅尝辄止的程度。

朴素贝叶斯

数据（Data） $,xn}{\bold x}=\{x_1,x_2,\cdots,x_n\}$
参数（Parameter） $,zm}{\bold z}=\{z_1,z_2,\cdots,z_m\}$
先验（Prior） $p(z)p({\bold z})$
后验（Posterior） $p(z∣x)p({\bold z}\vert{\bold x})$

先验一般使用常见的概率分布，比如扩散模型（Diffusion Model）选择高斯分布 $N(0,I){\cal N}({\bold 0},{\bold I})$ 。

后验 $p(z∣x)p({\bold z}\vert{\bold x})$ 即在 $x\bold x$ 的分布下 $z\bold z$ 的条件概率，也就是根据数据 $x\bold x$ 来估计参数 $z\bold z$ 。相比于先验，后验经过了数据 $x{\bold x}$ 的修正，因此能够更加贴合真实值。

后验的计算方法（贝叶斯公式）：
$p({\bold z}\vert{\bold x})=\frac{p({\bold z},{\bold x})}{p({\bold x})}=\frac{p({\bold x}\vert{\bold z})\cdot p({\bold z})}{p({\bold x})}$

似然（Likelihood） $p(x∣z)p({\bold x}\vert{\bold z})$
证据（Evidence） $p(x)p({\bold x})$

变分贝叶斯

后验没有解析表示，需要采用近似方法计算。马尔科夫链蒙特卡洛（MCMC）就是一种典型思路，虽然它能得到相对精确的结果，但是速度非常慢。巧妙一点的方法是把问题转化到凸优化上来。

假设在某一函数族 $Q{\mathbb Q}$ 内寻找与 $x\bold x$ 无关的概率密度函数 $q(z)q({\bold z})$ 来近似 $p(z∣x)p({\bold z}\vert{\bold x})$ ，优化目标：
$q^*({\bold z})=\mathop{\arg\min}\limits_{q({\bold z})\in{\mathbb Q}}{{\cal L}\left(q({\bold z}),p({\bold z}\vert{\bold x})\right)}$
$q∗(z)q^*({\bold z})$ 是我们追求的理想近似函数， $L\cal L$ 是我们的度量函数，用于衡量函数的近似水平。

扩散模型一般选择 KL 散度：
$\begin{aligned} \mathop{\rm KL}{\left(q({\bold z})\middle\Vert p({\bold z}\vert{\bold x})\right)} &=\int_{\bold z}{q({\bold z})\log\frac{q({\bold z})}{p({\bold z}\vert{\bold x})}{{\rm d}{\bold z}}} \\ &=\int_{\bold z}{q({\bold z})\log\frac{q({\bold z})\cdot p({\bold x})}{p({\bold z},{\bold x})}{{\rm d}{\bold z}}} \\ &=\int_{\bold z}{q({\bold z})\log{q({\bold z})}{{\rm d}{\bold z}}} -\int_{\bold z}{q({\bold z})\log{p({\bold z},{\bold x})}{{\rm d}{\bold z}}} +\log{p({\bold x})\int_{\bold z}{q({\bold z})}{{\rm d}{\bold z}}} \\ &=\mathop{{\bf E}_q}{\log{q({\bold z})}}-\mathop{{\bf E}_q}{\log{p({\bold z},{\bold x})}}+\log{p({\bold x})} \end{aligned}$
上式的前两项取负号，记作证据下界（Evidence Lower Bound，ELBO）：
${\rm ELBO}(q)=\mathop{{\bf E}_q}{\log{p({\bold z},{\bold x})}}-\mathop{{\bf E}_q}{\log{q({\bold z})}}$

于是：
$\log{p({\bold x})}=\mathop{\rm KL}{\left(q({\bold z})\middle\Vert p({\bold z}\vert{\bold x})\right)}+{\rm ELBO}(q)\ge{\rm ELBO}(q)$
上式证据 $log⁡p(x)\log{p({\bold x})}$ 是与 $q$ 无关的常数，从而优化目标等价于：
$q^*({\bold z})=\mathop{\arg\min}\limits_{q({\bold z})\in{\mathbb Q}}{\mathop{\rm KL}{\left(q({\bold z})\middle\Vert p({\bold z}\vert{\bold x})\right)}}=\mathop{\arg\max}\limits_{q({\bold z})\in{\mathbb Q}}{{\rm ELBO}(q)}$

坐标下降法

为参数 $z\bold z$ 的每一个分量独立估计各自的分布（平均场假设）：
$q({\bold z})=\prod_{j=1}^m{q_j(z_j)}$
固定其余参数，优化目标：
$q_j^*(z_j)=\mathop{\arg\max}\limits_{q_j}{{\rm ELBO}(q)}$
考虑关于 $j$ 的 ELBO：
$\begin{aligned} {\rm ELBO}(q) &=\mathop{{\bf E}_q}{\log{p({\bold z},{\bold x})}}-\mathop{{\bf E}_q}{\log{\prod_{i=1}^m{q_i(z_i)}}} \\ &=\mathop{{\bf E}_q}{\log{p({\bold z},{\bold x})}}-\mathop{{\bf E}_{q_j}}{\log{q_j(z_j)}}-\sum_{i\ne j}{\mathop{{\bf E}_{q_i}}{\log{q_i(z_i)}}} \\ &=\int_{\bold z}{q({\bold z})\log{p({\bold z},{\bold x})}{{\rm d}{\bold z}}} -\int_{z_j}{q_j(z_j)\log{q_j(z_j)}{{\rm d}z_j}}+C \\ &=\int_{z_j}{q_j(z_j){{\rm d}z_j}\left[\int_{{\bold z'}={\bold z}-\{z_j\}}{q({\bold z'})\log{p({\bold z},{\bold x})}{{\rm d}{\bold z'}}}\right]} -\int_{z_j}{q_j(z_j)\log{q_j(z_j)}{{\rm d}z_j}}+C \\ &=\int_{z_j}{q_j(z_j)\mathop{{\bf E}_{q_{-j}}}{\log{p({\bold z},{\bold x})}}{{\rm d}z_j}} -\int_{z_j}{q_j(z_j)\log{q_j(z_j)}{{\rm d}z_j}}+C \\ &=-\int_{z_j}{q_j(z_j)\log\frac{q_j(z_j)}{\exp\mathop{{\bf E}_{q_{-j}}}{\log{p({\bold z},{\bold x})}}}{{\rm d}z_j}}+C \\ &=-\mathop{\rm KL}{\left(q_j(z_j)\middle\Vert \exp\mathop{{\bf E}_{q_{-j}}}{\log{p({\bold z},{\bold x})}}\right)}+C \end{aligned}$
从而：
$q_j^*(z_j)=\mathop{\arg\min}\limits_{q_j}{\mathop{\rm KL}{\left(q_j(z_j)\middle\Vert \exp\mathop{{\bf E}_{q_{-j}}}{\log{p({\bold z},{\bold x})}}\right)}}=\exp\mathop{{\bf E}_{q_{-j}}}{\log{p({\bold z},{\bold x})}}$
由于 $q(z)q({\bold z})$ 整体需要满足概率分布，对每个分量进行归一化：
$q_j'(z_j)=\frac{q_j^*(z_j)}{\displaystyle\int_{j}{q_j^*(z_j){{\rm d}z_j}}}$