Monte Carlo 方法与 MCMC 简介

最新推荐文章于 2025-02-07 18:12:13 发布

止于至玄

最新推荐文章于 2025-02-07 18:12:13 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：随机过程

本文链接：https://blog.youkuaiyun.com/philthinker/article/details/80735037

Machine Learning 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了蒙特卡洛方法的基本原理及其在数值积分中的应用。包括静态蒙特卡洛方法中的频率法和期望法，以及适用于高维问题的动态蒙特卡洛方法(MCMC)。此外还详细讲解了MCMC中的Metropolis-Hastings算法、Gibbs抽样和贝叶斯MCMC估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Monte Carlo 方法也即随机模拟方法的别称，它的基本原理是：当求解随机事件方式的概率或随机变量的数学期望时，通过设计某种实验，得出某个特定事件发生的频率，使用这个频率来近似表示这一事件发生的概率，从而得到问题的数值解。可以看出，Monte Carlo 方法包含三个核心问题：构造概率过程、从已知概率分布中抽样、建立估计量。

大数定律
静态 Monte Carlo 方法
- 频率法
- 期望法
动态 Monte Carlo 方法（MCMC）
- Metropolis-Hastings 算法
- Gibbs 抽样
贝叶斯 MCMC 估计

大数定律

首先我们讨论下概率与频率的关系问题。独立地重复一个成功概率为 $p$ 的 Bernoulli 试验，用 $\xi_{n}$ 表示前 $n$ 次试验成功的次数，那么 $\frac{\xi_{n}}{n}$ 是前 $n$ 次试验成功的频率，也是一个随机变量，这个频率在某种意义下收敛于成功概率 $p$ ，即大数定律。

Bernoulli 定理: 对任何 $\epsilon>0$ ，有

lim n P (∣ ∣ ∣ ξ n n - p ∣ ∣ ∣ > ϵ) = 0

$\lim_{n}P\left( \left| \frac{\xi_{n}}{n}-p \right| > \epsilon \right) = 0$
大数定律说明当样本很大时，不确定性就消失了。Monte Carlo 方法是大数定律的直接结果。

静态 Monte Carlo 方法

如果我们要算一个单位方块 $\Omega$ 内任意区域 $D$ 的面积，我们重复地做随机试验：在 $\Omega$ 上任取一点，用 $\xi_{n}$ 表示第 $n$ 次取点落在 $D$ 中这个时间的指标，那么 $D$ 的面积 $|D|=p|\Omega|$ ，其中 $p=P(\xi_{n}=1)$ ，这里 $p$ 是未知数，用大数定律，我们可以用频率来估计它，这样就可以得到 $D$ 的面积近似值。这就是一种简单的静态 Monte Carlo 方法的案例。

静态 Monte Carlo 方法通过构造独立同分布的随机数来计算积分，有频率法和期望法两种。

频率法

举个例子说明：计算任意定义域为 $[0,1]$ 的函数 $g(x)$ 在区间 $[0,1]$ 上的积分 $\int_{0}^{1}g(x)\mathrm{d}x$ 。

假设随机变量 $X$ 和 $Y$ 服从 $[0,1]$ 上的均匀分布，且相互独立，则二位均匀分布 $(X,Y)$ 的联合概率密度为：

f (x, y) = {1, 0 < x < 1, 0 < y < 1 0, otherwise

$f(x,y) = \left\{ \begin{aligned} & 1,\quad 0<x<1,0<y<1 \\ & 0,\quad\text{otherwise} \end{aligned} \right.$ 现用

B B $B$ 表示事件

{w : Y \leq g (x)}

$\{w:Y\leq g(x)\}$ ，也即我们向矩形区域

[0,1]×[0,1] [ 0 , 1 ] × [ 0 , 1 ] $[0,1]\times[0,1]$ 随机投点，其中点落在以

[0,1] [ 0 , 1 ] $[0,1]$ 为底，以函数

g(x) g ( x ) $g(x)$ 为曲边的曲边梯形内。那么事件

B B $B$ 发生的概率为：

P (B) = \iint_{Y \leq g (x)} f (x, y) d x d y = \int_{0}^{1} [\int_{0}^{g (x)} 1 d y] d x = \int_{0}^{1} g (x) d x

$P(B)=\iint_{Y\leq g(x)}f(x,y)\mathrm{d}x\mathrm{d}y=\int_{0}^{1}\left[ \int_{0}^{g(x)}1\mathrm{d}y \right]\mathrm{d}x = \int_{0}^{1}g(x)\mathrm{d}x$ 可以看出，积分的计算转化为求事件

B B $B$ 发生的概率。由大数定律可知，可重复试验中事件

B

$B$ 发生的频率近似表示事件

B B $B$ 发生的概率。

总结一下，具体做法如下：

产生服从上均匀分布的随机数；
- 模拟试验，考察 $n$ 次投点试验，记录时间 $B$ 发生的概率，用来近似表示其发生的概率，即得到积分值 $\int_{0}^{1}g(x)\mathrm{d}x$ 。
- 期望法
  
  我们依然用上一小节的例子来说明。
  
  假设随机变量 $X$ 服从 $[0,1]$ 上的均匀分布，那么 $Y=g(X)$ 的期望为：
  
  E[Y]=E[g(X)]=∫10g(x)dx
  也就是说，积分的计算转化为计算 g(X) 的数学期望值。由大数定律可知，若 Xn 是独立同分布的随机变量序列，则 1n∑ni=1Xi 依概率收敛到 E[Xi] ，也就是说可用 g(x) 的观察值的均值估计 g(X) 的期望值。具体做法如下：
  1. 产生服从 $[0,1]$ 上均匀分布的随机数 $x_{i}$ ；
  2. 对每个 $x_{i}$ 计算 $g(x_{i})$ ，即可得到积分 $\int_{0}^{1}g(x)\mathrm{d}x$ 的估计值 $\frac{1}{n}\sum_{i=1}^{n}X_{i}$ 。
  动态 Monte Carlo 方法（MCMC）
  
  维数非常高的情况下，由于计算量太大，使用静态 Monte Carlo 方法处理速度太慢。动态 Monte Carlo 即 Markov Chain Monte Carlo 方法（简称 MCMC）主要用于对维度非常高的随机向量取样。
  
  MCMC 方法首先建立一个 Markov 链，使得其极限分布是平稳分布。从目标分布中产生随机样本，就是从达到平稳状态的 Markov 链中产生样本路径。一个好的 Markov 链应满足从任意位置出发都能快速达到平稳分布这一性质。MCMC的理论依据是几个极限定理，下面简要介绍。
  
  遍历的 Markov 链（即不可约、正常返、非周期）的极限分布是平稳分布且是唯一平稳分布。考虑一个状态空间为 $S=\{ 1,2,\dots,N\}$ 的Markov链，记其转移概率为
  
  P=⎛⎝⎜⎜⎜⎜⎜p11p21⋮pN1p12p22⋮pN2……⋱…p1Np2N⋮pNN⎞⎠⎟⎟⎟⎟⎟
  对于遍历Markov链，极限分布为
  
  πj=limn→∞pnij
  其中 πj 表示长时间运行后状态 j 出现的时间比例，称为平稳概率。令，那么 πj 是满足下列线性方程组的唯一解：
  
  π∑j=1Nπj=πP=1
  第一个方程表示 Markov 链处于状态 j 的时间所占的比例等于 Markov 链从状态转移到状态 j 所占的比例对求和；第二个方程表示 Markov 链处于状态 j 的时间所占的比例对求和为 1 。这个定理说明当 Markov 链运行足够长时间后的分布（极限分布）和初始分布无关。同时，从任意时刻开始以相反方向考察系统的变化情况，仍是一个转移概率为 $P$ 的Markov 链。其次，Markov链还有如下性质：假设 $\{X_{n},n=0,1,2,\dots\}$ 为一平稳分布为 $\pi$ 的遍历的Markov链，则 $X_{n}$ 依分布收敛到分布为 $\pi$ 的随机变量 $X$ ，且对任意函数 $g$ 当 $E_{\pi}[g(X)]$ 存在且 $n\to\infty$ 时，有
  $g ¯ n = 1 n \sum i = 1 n g (X i) \to E π [g (X)]$ $\bar{g}_{n}=\frac{1}{n}\sum_{i=1}^{n}g(X_{i}) \to E_{\pi}[g(X)]$ 换句话说， Markov链的实值函数的遍历均值几乎处处收敛到极限分布下的均值。若一个Markov链是一致几何遍历（转移速度以速度 $\lambda^{t}(0<\lambda<1)$ 收敛）的，并且 $f$ 相对于平稳分布 $\pi$ 是平方可积，则有
  $n - - \sqrt f ¯ n - E π [ f ( x ) ] Γ \to N (0, 1), n \to \infty$ $\sqrt{n}\frac{\bar{f}_{n}-E_{\pi}[f(x)]}{\Gamma} \to N(0,1), n\to\infty$ 这说明 Markov链的遍历均值做合适的变化后依分布收敛到标准正态分布。
  
  综上，我们可建立一个以 $\pi$ 为平稳分布的Markov链，则在运行此链足够长时间后，该Markov链会达到平稳状态。此时Markov链的值就相当于从分布 $\pi$ 中抽取的样本。
  
  Metropolis-Hastings 算法
  
  MCMC方法的重点在于构造合适的Markov链，Metropolis-Hastings 算法（简称 M-H算法）就是构造一个给定概率分布作为极限分布的 Markov 链的方法。
  
  M-H算法的原理此处暂时省略，这里只给出关键步骤。
  
  构造合适的建议分布 $g(\cdot | X_{t})$ ，并产生服从该分布的 $X_{0}$ 。
  从 $g(\cdot | X_{t})$ 中产生 $Y$ ，从 $U(0,1)$ 中产生 $U$ ，若 $U \leq \frac{f (Y) g (X_{t} | Y)}{f (X_{t}) g (Y | X_{t})}$ $U\leq \frac{f(Y)g(X_{t}|Y)}{f(X_{t})g(Y|X_{t})}$ 则接受 $Y$ 并令 $X_{t+1} = Y$ ，否则令 $X_{t+1} = X_{t}$ 。
  重复步骤 2 中的过程直至Markov链达到平稳状态。
  
  Gibbs 抽样
  
  Gibbs抽样是M-H算法的一个特例，它将高维问题转化为一维问题。Gibbs抽样方法的重要特点是分别逐一对每个分类进行抽取。在对每个分量进行抽取时，是对其它所有分量的条件分布进行抽样的。
  
  这里也暂时仅介绍其关键步骤，以二维分布 $(X_{1},X_{2})$ 为例：
  
  令 $(x_{1},x_{2})=X(t-1)$ ；
  从 $f(x_{1}|x_{2})$ 中产生候选点 $X_{1}^{*}(t)$ ，更新 $x_{1}=X_{1}^{*}(t)$ ；
  从 $f(x_{2}|x_{1})$ 中产生候选点 $X_{2}^{*}(t)$ ，更新 $x_{2}=X_{2}^{*}(t)$ ；
  令 $X(t) = (X_{1}^{*}(t), X_{2}^{*}(t))$ 。
  
  贝叶斯 MCMC 估计
  
  应用贝叶斯方法分析问题的时候，一个主要的困难是得到的后验分布需要进行高维积分函数计算，通常高维积分的计算非常困难且耗时。MCMC方法是一种避免直接进行高纬积分计算的方法。
  
  假设 $p(y|\theta)$ 为抽样概率密度函数，其中 $\theta$ 是待估计未知参数向量。设未知参数的先验概率密度函数为 $\pi(\theta)$ ，则后验概率密度为
  
  $π (θ | y) = p ( y | θ ) π ( θ ) \int Θ p ( y | θ ) π ( θ ) d θ$ $\pi(\theta | y) = \frac{p(y|\theta)\pi(\theta)}{\int_{\Theta}p(y|\theta)\pi(\theta)\mathrm{d}\theta}$ 实际问题中上述后验密度通常是比较复杂的未知形式。这些困难可以使用MCMC方法来解决。具体做法此处暂时不做详细介绍，敬请期待。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

止于至玄

关注关注

1
点赞

踩

6

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

MCMC方法介绍

08-01

熟练掌握MCMC

MCMC基础简说

wazsd1的博客

11-14 6215

MCMC基础简说

参与评论您还未登录，请先登录后发表或查看评论

MCMC基本概念以及简单范例

12-18

An easy and convenient form of dependence is Markov chain dependence. The Markov dependence is perfect for computer simulations since for producing a future realization of the chain, only the current state is needed.

mplus 8 用户手册 Chapter12 蒙特卡洛模拟研究查看示例.pdf

03-12

以下是版本 8 Mplus 用户指南的摘录。第 3 章 - 第 13 章包括 250 多个示例。这些示例还包含在 Mplus DVD 上以及生成数据的相应蒙特卡罗模拟设置中。第一章：导言第 2 章：开始使用 Mplus 第 3 章：回归和路径分析视图示例第四章：探索性因素分析视图示例第五章：确认因子分析和结构方程建模视图示例第 6 章：生长建模、生存分析和 N=1 时间序列分析视图示例第 7 章：具有横截面数据视图示例的混合建模第 8 章：采用纵向数据视图示例的混合建模第 9 章：具有复杂调查数据视图示例的多层建模第10章：多层次混合建模视图示例第11章：缺少数据建模和贝叶斯估计视图示例第12章：蒙特卡洛模拟研究查看示例第13章：示例：特殊功能第14章：特殊建模问题第 15 章：标题、数据、变量和定义命令第16章：分析命令第17章：MODEL命令第 18 章：输出、保存数据和绘图命令第19章：蒙特卡洛命令第20章：Mplus语言摘要引用/索引

MCMC方法小记

yinshuwei的专栏

04-08 4679

转自http://sunyi514.github.io/采样采样问题指的是给定一个特定的概率分布p(z)p(z)，得到一批符合这个概率分布的样本点。采样的方法有很多，MCMC是其中的一类方法，意思是利用Mento Carlo和Markov Chain完成采样。当然，要完成对各种分布的采样，有一个默认的假设，就是我们已经能够对均匀分布进行采样了(后面就专指范围为0-1的均匀分布)，也就是编程中通常会...

mcmc.zip_Monte Carlo_matlab Mcmc_mcmc_mcmc matlab_蒙特卡洛

09-21

在标题中提到的"MCMC"（Markov Chain Monte Carlo，马尔科夫链蒙特卡洛）是蒙特卡洛方法的一个高级形式，它利用马尔科夫链的性质来构造一个能够遍历目标概率分布的随机过程。MCMC特别适合处理高维问题，如贝叶斯统计...

MCMC.rar_Matlab蒙特卡罗_Monte Carlo_matlab mcmc code_mcmc images mat

07-14

马尔可夫链蒙特卡罗（Markov Chain Monte Carlo, MCMC）是一种在概率模型中进行统计推断的强大方法。它通过构建一个马尔可夫链，并使其平稳分布与我们想要采样的目标分布相匹配，从而可以生成来自该目标分布的样本。...

mcmc.rar_MARKOV_Markov Chain Monte_Monte Carlo_mcmc_mcmc matlab

09-22

a introduction of Markov Chain Monte Carlo

详解Markov Chain Monte Carlo (MCMC)

ltz0120的博客

11-12 2494

MCMC的本质是通过Markov Chain的stationary distribution(平稳分布)来指导随机采样的一种方法。说到MCMC，首先要先了解什么是Monte Carlo和Markov Chain。 1. Monte Carlo (蒙特卡罗方法): 蒙特卡罗方法是指通过构造符合一定规则的随机数来解决数学上的各种问题，本质是根据采样来做估计期望(estimate expected value by sampling)，用公式表达：就是根据x的分布p(x)来采样，并估算f(x)...

马尔科夫蒙特卡洛（Markov Chain Monte Carlo ，MCMC)算法原理及实现

最新发布

qq_33009429的博客

02-07 1159

使用scipy.stats.norm创建一个标准正态分布对象，均值为0，标准差为1。

蒙特卡罗方法介绍( 二)

chunyun0716的专栏

09-30 2662

蒙特卡罗方法介绍( 二) 一、蒙特卡罗求解定积分蒙特卡洛方法求解定积分有两种方法，一种是上一节中讲的投点法，另外一种是期望法（也称平均值法）。 1.1 投点法给出如下曲线f(x)f(x)f(x),求f(x)f(x)f(x)在a,ba,ba,b上的积分，即xxx在a,ba,ba,b上与曲线f(x)f(x)f(x)围成的面积。随机在如下矩形中进行投点，假设绿色点数为ggg，红色点数为rrr,矩阵的...

蒙特卡洛算法学习笔记

u011426236的博客

09-05 1907

导语蒙特卡洛算法是一大类随机算法，通过随机样本来估算真实值。本节课我们使用几个例子来讲解蒙特卡洛算法。通过均匀抽样计算π\piπ 假如我们不知道π\piπ值，现在我们来估算π\piπ值，假设我们有随机数生成器，那么我们能否借助它来估算π\piπ值呢。接下来，我们使用蒙特卡洛方法来估算π\piπ值。假设我们有两个随机数生成器，它们都可以均匀的从-1到+1产生随机数，我们把生成的数字一个作为x，一个作为y。于是每次就生成了平面坐标系上的一个点(x,y)。所有点都会落在蓝色正方形区域内，由于x,y都是均

强化学习-概念02：蒙特卡洛【Monte-Carlo（MC）】

u013250861的博客

12-09 1909

本文重点解决如下几个问题：（1）什么是蒙特卡洛法？（2）蒙特卡洛法能够解决什么问题？（3）蒙特卡洛法的优势是什么？或者说为什么要使用蒙特卡洛法？

15分钟入门蒙特卡洛 Monte Carlo

机器学习算法那些事

10-13 1713

来自 | 知乎作者 |薛定豆链接 |https://zhuanlan.zhihu.com/p/223042372编辑 | 深度学习这件小事公众号本文仅作学术交流，如有侵权，请联...

干货 | 蒙特卡洛方法（Monte Carlo）

码农的科研笔记

06-22 1万+

关于我的更多学习笔记，欢迎您关注“武汉AI算法研习”公众号，本文作者微信comrliuyu。本文分以下几个部分“【关于蒙特卡洛方法的理解】”、“【无意识统计学家定律】”、“【蒙特卡洛（Monte Carlo）法求定积分】”、“【蒙特卡洛采样】”来进行展开，总共阅读时间大约15分钟。【关于蒙特卡洛方法的理解】 1、蒙特卡洛方法又称“随机抽样方法”，和一般数值计算方法有本质区别的计算...

蒙特卡洛方法（Monte Carlo）【强化学习】

v20000727的博客

04-10 2389

前面介绍的值迭代和策略迭代算法，我们都假设模型已知，也就是环境的动态特性（比如各种概率）我们都预先知道。然而在实际问题中，我们可能对环境的动态特性并不是那么清楚，但是我们可以得到足够多的数据，那么我们同样可以用强化学习来建模解决这个问题，这类不利用模型的算法被称为`Model-free`的方法。`Monte Carlo`方法便是一种`Model-free`的方法。

Monte Carlo仿真方法的基本思想及其特点

ScriptCharm的博客

09-08 498

它的基本思想是通过生成大量的随机数样本，利用统计学原理来近似计算复杂的问题。在Matlab中，我们可以利用其功能强大的数值计算和随机数生成工具来实现Monte Carlo仿真，并得到问题的近似解。统计近似：Monte Carlo仿真方法利用大量的随机采样点来进行统计分析，通过计算这些采样点的平均值、方差、概率分布等统计量，来近似计算问题的解。随机采样：Monte Carlo仿真方法通过随机采样来获取问题的解空间中的点。通过大量的采样点，可以获取问题的统计特性和近似解。

蒙特卡洛方法（Monte-Carlo Simulation）

热门推荐

Abner

09-01 3万+

目录布封投针问题（Buffon's needle problem）蒙特卡洛方法（Monte-Carlo Simulation）估算PI 估计不规则图形的面积随机抛点采样估计样本采集拒绝采样（reject sample）布封投针问题（Buffon's needle problem）问题： 1、取一张白纸，画出间隔为的等距平行线。 2、取一根长度为的针，...

蒙特卡罗(Monte Carlo)方法简介

weixin_40066834的博客

05-11 1178

转摘：wuguangbin1230 蒙特卡罗(Monte Carlo)方法，也称为计算机随机模拟方法，是一种基于"随机数"的计算方法。一起源这一方法源于美国在第二次世界大战进研制原子弹的"曼哈顿计划"。Monte Carlo方法创始人主要是这四位：Stanislaw Marcin Ulam, Enrico Fermi, John von Neumann（学计算机的肯定都认识这个牛人吧）和 Nicholas Metropolis。 Stanislaw Marcin Ulam是波兰裔美籍数学家，早年是研究

Monte Carlo方法简介：以图像分类为例

Markov Chain Monte Carlo (MCMC)是另一种扩展的蒙特卡洛方法，常用于处理复杂的统计问题，例如在贝叶斯统计中推断参数。总结来说，本文通过一个简单的积分计算示例，介绍了Monte Carlo方法的基本思想和应用，以及...