作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱
阅读本文之前,首先注意以下两点:
1. 机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。
2. 文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号【AI机器学习与知识图谱】后回复:MCMC第二讲,可添加微信号【17865190919】进学习交流群,加好友时备注来自优快云。原创不易,转载请告知并注明出处!
本文将先从基本的概念入手,循序渐进阐述MCMC采样思想。
- 马尔科夫链
- 齐次马尔科夫连
- 平稳分布
- Detailed Balance
- 为何引出MCMC
- MCMC核心思想
一、马尔科夫链
马尔科夫链是时间和状态都是离散的马氏过程/随机过程,其中随机过程是指研究变量是随机变量序列x1,x2,...,xn,...{x_1,x_2,...,x_n,...}x1,x2,...,xn,...,而不是单个随机变量xxx。马氏链的概率图模型表示如下:

简单解释一下上图中需要用到的两个概念:(1)转移矩阵:P=[pij]P=[p_{ij}]P=[pij],其中pijp_{ij}pij表示从状态xix_ixi到状态xjx_jxj的转移概率;(2)状态概率:每个状态xix_ixi都有状态概率πi\pi_iπi。
二、齐次马尔科夫链
齐次马尔科夫链是指t+1时刻状态xt+1x_{t+1}xt+1只和t时刻状态xtx_txt有关,公式表示如下:

三、平稳分布
如果状态概率序列π1,π2,...,πn,...{\pi_1,\pi_2,...,\pi_n,...}π1,π2,...,πn,...是x1,x2,...,xn,...{x_1,x_2,...,x_n,...}x1,x2,...,xn,...的平稳分布,则满足以下条件:

其中:

简单来说,对于平稳分布,平稳分布是指马氏链中状态概率π(x)\pi(x)π(x)经过任意的转移p(x−>x∗)p(x->x_*)p(x−>x∗)都等于同一个值π(x∗)\pi(x_*)π(x∗)
四、Detailed Balance
Detailed Balance是平稳分布的充分不必要条件,即马氏链满足Detailed Balance一定满足平稳分布,但满足平稳分布不一定满足Detailed Balance。马氏链是Detailed Balance时满足以下公式:

已知Detailed Balance来推导平稳分布,下面给出简单的推导过程:

其中

所以有Detailed Balance推导出平稳分布,即:

五、为何引出MCMC
对于拒绝采样和重要性,因为原有的概率分布p(x)p(x)p(x)维度高很复杂无法直接采样,所以采取的策略是:先假设一个概率分布q(x)q(x)q(x)与p(x)p(x)p(x)接近,并且q(x)q(x)q(x)简单易采样,这样便可以通过对概率分布q(x)q(x)q(x)采样来替代无法采样的p(x)p(x)p(x)。但显然存在一个问题,寻找到一个和高维复杂的p(x)p(x)p(x)接近且简单易采样的概率分布q(x)q(x)q(x)是困难的,不太现实的。这让拒绝采样和重要性采样变得不易操作。因此才引出了MCMC的采样方案。
六、MCMC核心思想
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KMDpVhMb-1617968669211)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image048.jpg)]](https://i-blog.csdnimg.cn/blog_migrate/ff59ee2e94e1bbc16985e7d5c58d8f6c.png#pic_center)
在介绍MCMC采样的核心思想之前,我们先看上图中的马氏链:

每个状态对应的概率分布分别是:

通过状态转移矩阵从q(1)(x)q^{(1)}(x)q(1)(x)转移到q(2)(x)q^{(2)}(x)q(2)(x),这样一直转移到q(m)(x)q^{(m)}(x)q(m)(x),q(m+1)(x)q^{(m+1)}(x)q(m+1)(x),假设该马氏链随着转态转移到状态xmx_mxm之后就已经达到了平稳分布,即q(m)(x)q^{(m)}(x)q(m)(x)和q(m+1)(x)q^{(m+1)}(x)q(m+1)(x)的概率分布已经保持一致。这里我们引出MCMC采样的想法:
传统拒绝采样和重要性采样想直接给出高维复杂概率分布p(x)p(x)p(x)相近的q(x)q(x)q(x)是十分复杂的;
MCMC就试图间接找到这样的q(x)q(x)q(x),即先构造一条马氏链,通过假设合适的转态转移矩阵,让马氏链最后进入平稳分布状态概率分布q(m)(x)q^{(m)}(x)q(m)(x),且q(m)(x)q^{(m)}(x)q(m)(x)和p(x)p(x)p(x)相近,这样通过对q(m)(x)q^{(m)}(x)q(m)(x)进行采样来代替高维复杂概率分布p(x)p(x)p(x),这就是MCMC采样的思想,所以关键在于如何构造合适的状态转移矩阵,让马氏链最终能够平稳分布并接近p(x)p(x)p(x)。
因此从MCMC采样想法中需要说明两个关键点,在下一节MCMC第三讲中将对以下两个关键点详细证明:
1、马氏链是否可以趋近于平稳分布状态,概率分布q(m)(x)q^{(m)}(x)q(m)(x);
2、如何设置转态转移矩阵使得平稳分布状态下的概率分布q(m)(x)q^{(m)}(x)q(m)(x)接近p(x)p(x)p(x)
6558





