大模型预训练 | 强化学习中常用的三大采样方法:重要性采样、拒绝采样、多级蒙特卡洛

强化学习中常用三种采样方法:

  • 重要性采样(Importance Sampling)
  • 拒绝采样(Rejection Sampling)
  • 多级蒙特卡洛(Multilevel Monte Carlo, MLMC)

定义及优缺点分析

  • 重要性采样(Importance Sampling)
    主要是通过引入一个提议分布q(x),从中采样,然后通过权重调整来估计目标分布p(x)下的期望。核心是计算每个样本的权重w=p(x)/q(x),然后加权平均。优点是所有样本都被利用,适合高维积分和计算期望,但缺点是如果q(x)和p(x)差异大,方差会很高,需要技巧来减少方差。比如参考中提到“重要性采样的效率取决于行为策略和目标策略之间的重叠程度”,方差大的时候效果差。

  • 拒绝采样(Rejection Sampling)
    方法需要找一个提议分布q(x),并确定一个常数M,使得Mq(x)总是大于等于p(x)。然后从q(x)采样,生成一个随机数u,如果u小于p(x)/(Mq(x))就接受样本,否则拒绝。优点是实现简单,适用于复杂分布,但缺点是需要找到合适的M,且当p(x)和q(x)形状差异大时,拒绝率高,效率低。

  • 多级蒙特卡洛(Multilevel Monte Carlo)
    的核心思想是通过在不同精度层次(level)上进行抽样,结合这些层次的估计量来减少总体计算成本。具体来说,MLMC通过分层采样,将问题分解为多个离散化级别,比如粗网格和细网格,在不同层次上分配不同的样本数量,从而在保证精度的前提下降低方差和计算量。通过分层采样,在不同层次上进行计算,结合粗细层次的估计值来降低总体方差。传统的蒙特卡洛方法在计算期望时,每个样本的成本固定,且总成本随着精度要求的提高而显著增加,尤其是当需要考虑离散化误差(如PDE求解中的网格细化)时。MLMC则通过在不同层次的离散化(如不同时间或空间步长)上进行采样,利用层次间的相关性来减少方差。例如,粗层次的样本成本低但偏差大,细层次则成本高但偏差小。MLMC通过组合多个层次的结果,使得总体的计算成本比传统MC更低优点是能显著减少计算量,特别是对于高维问题,但实现复杂,需要合理分层。

为什么他们有效?

从概率论的角度解释,重要性采样中的权重调整实际上是对期望的无偏估计,拒绝采样的接受概率保证了每个样本被接受的几率与其在p中的密度成比例,在大数定律的作用,样本分布也是对原有分布的无偏估计。多级蒙特卡洛充分利用了粗层级样本成本低但偏差大,细层级成本高但偏差小的特点,通过对成本和精度的量化平衡来实现对原有分布的估计。

重要性采样:“权重补偿”原理。

假设我们想从复杂分布 p(x) 采样,但只能从简单分布 q(x) 生成样本。通过给每个样本 xi 赋予权重 wi=p(xi)/q(xi),相当于用 q(x) 的样本“穿上 p(x) 的外衣”。

  • 若 xi 在 p(x) 中概率高,但在 q(x) 中概率低,则权重 wi 增大,放大其重要性。
  • 反之,若 xi 在 p(x) 中概率低,权重会减小。

最终通过加权平均,使得计算结果等同于直接从 p(x) 采样。

拒绝采样:“筛选过滤”原理

在这里插入图片描述

多级蒙特卡洛:“分层计算+差异互补”原理

为什么MLMC有效?MLMC通过望远镜求和(telescoping sum)的方式分解期望值,将精细层次的估计量表示为粗层次的估计量加上层次间的差异。这种分解允许在粗层次上使用大量低成本样本,而在细层次上使用少量高成本样本,从而平衡计算开销和精度。将问题分解为多个离散化精度层级(如粗网格和细网格),通过不同层级样本的组合降低总方差。具体步骤为:
在这里插入图片描述

三、一个通俗的比喻

重要性采样:

假设原分布 p(x) 是一块形状复杂的蛋糕,但无法直接切分。我们改用方形模具 q(x) 烤制方形蛋糕,但记录每块方形蛋糕对应原蛋糕的厚度比例(即权重),最后按厚度比例重新拼合,得到与原蛋糕形状一致的结果。

拒绝采样:

同样面对复杂蛋糕,我们先用方形模具烤制大量方形蛋糕块,然后通过测量每块的厚度(对应 p(x) 的密度),丢弃过薄的部分,保留符合要求的块。最终留下的蛋糕块分布与原蛋糕一致。

多级蒙特卡洛(MLMC):层级分解、样本分配优化、方差缩减

先将蛋糕从薄到厚进行分层,在薄的层上切出面积较大的蛋糕,用来估计这个层级需要这个大块蛋糕的数量,在较厚的层上切较小的蛋糕块,用来评估这层需要多少个类似的蛋糕块,最后根据估计每个层级的数量来让蛋糕快与原蛋糕一致。

四、数学上的分析

重要性采样:

在这里插入图片描述

拒绝采样:

接受概率 A 的设计使得接受的样本密度正比于 p(x)。数学上可证明,接受样本的概率密度函数为: 接受概率接受概率∝p(x)M⋅q(x)⋅q(x)=p(x)M

即所有接受样本的分布与 p(x) 成固定比例,归一化后等价于 p(x)。

多级蒙特卡洛:

  1. 成本-精度平衡:粗层级样本成本低但偏差大,细层级成本高但偏差小。MLMC通过分配更多样本到低层级,减少高层级样本数,整体降低计算量。在求解随机微分方程时,粗网格(Level 0)的单个样本成本为 C0,细网格(Level L)成本为 CL=2LC0。若高层级差异的方差衰减足够快,MLMC总成本可降至接近单层级MC的O(ϵ−2)。
  2. 方差缩减机制:层级差异 Pl−Pl−1 的方差通常随层级细化指数衰减(如 Var[Pl−Pl−1]∝2−βl),使得高层级所需样本数锐减。
  3. 适应复杂函数:在贝叶斯优化的多步前瞻中,嵌套max操作导致函数非光滑,传统拟蒙特卡洛(QMC)失效,而MLMC通过Antithetic采样等技术仍能保持收敛速度。

五、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值