大模型预训练 | 强化学习中常用的三大采样方法：重要性采样、拒绝采样、多级蒙特卡洛

本文链接：https://blog.youkuaiyun.com/Code1994/article/details/147395631

强化学习中常用三种采样方法：

重要性采样（Importance Sampling）
拒绝采样（Rejection Sampling）
多级蒙特卡洛（Multilevel Monte Carlo, MLMC）

定义及优缺点分析

重要性采样（Importance Sampling）
主要是通过引入一个提议分布q(x)，从中采样，然后通过权重调整来估计目标分布p(x)下的期望。核心是计算每个样本的权重w=p(x)/q(x)，然后加权平均。优点是所有样本都被利用，适合高维积分和计算期望，但缺点是如果q(x)和p(x)差异大，方差会很高，需要技巧来减少方差。比如参考中提到“重要性采样的效率取决于行为策略和目标策略之间的重叠程度”，方差大的时候效果差。
拒绝采样（Rejection Sampling）
方法需要找一个提议分布q(x)，并确定一个常数M，使得Mq(x)总是大于等于p(x)。然后从q(x)采样，生成一个随机数u，如果u小于p(x)/(Mq(x))就接受样本，否则拒绝。优点是实现简单，适用于复杂分布，但缺点是需要找到合适的M，且当p(x)和q(x)形状差异大时，拒绝率高，效率低。
多级蒙特卡洛（Multilevel Monte Carlo）
的核心思想是通过在不同精度层次（level）上进行抽样，结合这些层次的估计量来减少总体计算成本。具体来说，MLMC通过分层采样，将问题分解为多个离散化级别，比如粗网格和细网格，在不同层次上分配不同的样本数量，从而在保证精度的前提下降低方差和计算量。通过分层采样，在不同层次上进行计算，结合粗细层次的估计值来降低总体方差。传统的蒙特卡洛方法在计算期望时，每个样本的成本固定，且总成本随着精度要求的提高而显著增加，尤其是当需要考虑离散化误差（如PDE求解中的网格细化）时。MLMC则通过在不同层次的离散化（如不同时间或空间步长）上进行采样，利用层次间的相关性来减少方差。例如，粗层次的样本成本低但偏差大，细层次则成本高但偏差小。MLMC通过组合多个层次的结果，使得总体的计算成本比传统MC更低优点是能显著减少计算量，特别是对于高维问题，但实现复杂，需要合理分层。

为什么他们有效？

从概率论的角度解释，重要性采样中的权重调整实际上是对期望的无偏估计，拒绝采样的接受概率保证了每个样本被接受的几率与其在p中的密度成比例，在大数定律的作用，样本分布也是对原有分布的无偏估计。多级蒙特卡洛充分利用了粗层级样本成本低但偏差大，细层级成本高但偏差小的特点，通过对成本和精度的量化平衡来实现对原有分布的估计。

重要性采样：“权重补偿”原理。

假设我们想从复杂分布 p(x) 采样，但只能从简单分布 q(x) 生成样本。通过给每个样本 xi 赋予权重 wi=p(xi)/q(xi)，相当于用 q(x) 的样本“穿上 p(x) 的外衣”。

若 xi 在 p(x) 中概率高，但在 q(x) 中概率低，则权重 wi 增大，放大其重要性。
反之，若 xi 在 p(x) 中概率低，权重会减小。

最终通过加权平均，使得计算结果等同于直接从 p(x) 采样。

拒绝采样：“筛选过滤”原理

在这里插入图片描述

多级蒙特卡洛：“分层计算+差异互补”原理

为什么MLMC有效？MLMC通过望远镜求和（telescoping sum）的方式分解期望值，将精细层次的估计量表示为粗层次的估计量加上层次间的差异。这种分解允许在粗层次上使用大量低成本样本，而在细层次上使用少量高成本样本，从而平衡计算开销和精度。将问题分解为多个离散化精度层级（如粗网格和细网格），通过不同层级样本的组合降低总方差。具体步骤为：
在这里插入图片描述

三、一个通俗的比喻

重要性采样：

假设原分布 p(x) 是一块形状复杂的蛋糕，但无法直接切分。我们改用方形模具 q(x) 烤制方形蛋糕，但记录每块方形蛋糕对应原蛋糕的厚度比例（即权重），最后按厚度比例重新拼合，得到与原蛋糕形状一致的结果。

拒绝采样：

同样面对复杂蛋糕，我们先用方形模具烤制大量方形蛋糕块，然后通过测量每块的厚度（对应 p(x) 的密度），丢弃过薄的部分，保留符合要求的块。最终留下的蛋糕块分布与原蛋糕一致。

多级蒙特卡洛（MLMC）：层级分解、样本分配优化、方差缩减

先将蛋糕从薄到厚进行分层，在薄的层上切出面积较大的蛋糕，用来估计这个层级需要这个大块蛋糕的数量，在较厚的层上切较小的蛋糕块，用来评估这层需要多少个类似的蛋糕块，最后根据估计每个层级的数量来让蛋糕快与原蛋糕一致。

四、数学上的分析

重要性采样：

在这里插入图片描述

拒绝采样：

接受概率 A 的设计使得接受的样本密度正比于 p(x)。数学上可证明，接受样本的概率密度函数为：接受概率接受概率∝p(x)M⋅q(x)⋅q(x)=p(x)M

即所有接受样本的分布与 p(x) 成固定比例，归一化后等价于 p(x)。

多级蒙特卡洛：

成本-精度平衡：粗层级样本成本低但偏差大，细层级成本高但偏差小。MLMC通过分配更多样本到低层级，减少高层级样本数，整体降低计算量。在求解随机微分方程时，粗网格（Level 0）的单个样本成本为 C0，细网格（Level L）成本为 CL=2LC0。若高层级差异的方差衰减足够快，MLMC总成本可降至接近单层级MC的O(ϵ−2)。
方差缩减机制：层级差异 Pl−Pl−1 的方差通常随层级细化指数衰减（如 Var[Pl−Pl−1]∝2−βl），使得高层级所需样本数锐减。
适应复杂函数：在贝叶斯优化的多步前瞻中，嵌套max操作导致函数非光滑，传统拟蒙特卡洛（QMC）失效，而MLMC通过Antithetic采样等技术仍能保持收敛速度。