MoPPS技术详解:从入门到精通,一篇搞定大模型提示词选择效率!

清华大学季向阳教授团队提出的MoPPS技术,通过轻量级预测模型替代昂贵的LLM直接评估,解决大语言模型在强化学习微调过程中的提示词选择效率问题。该技术采用预测-选择-训练-更新的闭环迭代系统,从海量候选提示词中高效筛选出最优组合,显著降低计算成本,同时保持模型性能提升效果,为大规模应用提示词选择提供了可行方案。


清华大学季向阳教授团队提出的 MoPPS(Model Predictive Prompt Selection,模型预测提示选择) 技术,专注于解决大语言模型(LLM)在强化学习微调(Reinforcement Fine-Tuning, RFT) 过程中面临的计算成本和提示词选择效率问题。下面我将为你介绍相关背景、快速强化微调的概念,以及为什么需要提示词选择。

首先我们回顾一下,什么是SFT和RFT,为什么有提示词选择这一步操作?

什么是SFT

我们知道大模型是在通用语料知识训练的,具有很全面的世界知识,同时具备一定的推理能力。他的通用能力很强,但是在具体应用场景中,我其实希望在我这个业务场景,强化他的能力,比如医疗场景,我希望它是一位医疗专家,有很强的医学专业知识。

那么怎么办呢?通常的方法就是做sft,拿专业的知识语料对训练好的大模型进行微调对齐,如下图所示:

SFT(Supervised Fine-Tuning) 是监督微调的缩写,主要用于计算机科学领域,特指在预训练模型(如大语言模型)基础上,通过少量标注数据调整模型参数,使其适应特定任务的技术。

什么是RFT

强化微调(Reinforcement Fine-Tuning, 简称RFT),基于构建的利用高质量的COT数据、参考答案,使用强化学习技术对预训练大模型进行有针对性、精细化的微调,提升大模型推理能力,使得与特定任务需求更契合。

主要是用思维链推理和任务专属的评分机制来提升模型在特定复杂领域的表现,其核心机制是,将强化学习与模型微调融合。

具体而言,针对给定的prompt,产生一些包含Cot数据的回答,再通过一个验证器模型判断回答是否正确,作为信号指导模型参数更新。本质上,RFT仍然是强化学习PPO范式的变种,与传统基于PPO的RLHF(Reinforcement learning Human Feedback)不同的是,奖励信号不是reword model计算,而是verifier计算。verifier是rule-based reward model,可以看作一系列规则。如,数学类任务答案是否正确,code任务代码能否执行、执行结果是否正确。

强化微调(RFT)的两个主要阶段:预热阶段和强化学习阶段。

  • 预热阶段(Warm-up):
  • 在这个阶段,模型使用包含“问题(question)”和“思维链(Chain-of-Thought,CoT)”元组的数据集进行微调,通常持续1-2个epoch。
  • 目的是使模型具备基本的问题解决能力,能够生成适当的响应。
  • CoT生成过程被分解为一系列预测下一个词(token)的动作,直到生成结束符()。
  • 强化学习阶段(Reinforcement Learning):
  • 在这个阶段,模型通过在线自我学习的方式提高性能,使用包含“问题(question)”和“答案(answer)”元组的数据集。
  • 模型通过重复采样响应、评估响应的答案正确性,并在线更新其参数。
  • 使用PPO(Proximal Policy Optimization)算法进行训练,其中价值模型(value model)Vϕ是基于预热阶段后的政策模型πθ的最后隐藏状态构建的。
  • 奖励函数在终端状态时直接比较从状态的CoT提取的答案和真实答案y,正确则返回1,否则返回0。对于数值型答案的数据集,还可以应用部分奖励(partial reward)0.1。
  • 总奖励是奖励函数得分和学习到的RL政策与初始政策之间的Kullback-Leibler(KL)散度的和。

什么是MoPPS

这张图清晰地对比了两种提示词(Prompt)选择策略,并重点阐述了一种名为MoPPS的新型高效方法。

一、 核心解决的问题

在大型语言模型(LLM)的应用中,特别是在思维链(Chain-of-Thought)少样本学习(Few-Shot Learning) 中,模型的表现高度依赖于所提供的示例提示词(Demonstration Prompts)。然而,如何从海量的候选提示词中筛选出最有效的那一个,是一个巨大的挑战。该图所要解决的核心问题就是:

如何以最低的代价(计算成本、时间成本),从提示词库(Prompt Pool)中自动、高效地筛选出最能提升模型在特定任务上表现的高质量提示词?

传统方法(如Oracle动态采样)需要让LLM对大量候选提示进行实际推理来评估其效果,这个过程计算成本极其高昂,因为每次评估都相当于进行一次完整的LLM前向计算。本图提出的MoPPS方法旨在彻底解决这个成本问题。

二、 方法详解:对比与创新

图片通过左右对比的方式,清晰地展示了两种方法。

1. 左侧:提示词库 (Prompt Pool)

这是所有方法的基础资源库。它包含了多种类型的问题示例(如数学、规划、几何),这些示例就是待筛选的候选提示词。所有方法的目标都是从这个池子中找出“最佳”的提示组合。

2. 中间:方法对比 (Dynamic Sampling vs. MoPPS)
  • Dynamic Sampling (Oracle) 【作为对比的基线方法】

    • 工作原理:这种方法代表了一种“理想但昂贵”的策略。它为了判断一个提示词的好坏,会直接将候选提示词输入给LLM,在一个小型的评估集上运行推理,并根据模型在该提示词下的实际表现(成功率) 来进行筛选。
    • 优点:评估结果准确可靠。
    • 缺点计算成本巨大。每一个候选提示词都需要消耗一次昂贵的LLM API调用或本地计算资源,当候选池很大时,这种方法几乎不可行。
  • Model Predictive Prompt Selection (MoPPS) 【本文提出的创新方法】

    • 工作原理:MoPPS的核心思想是用预测代替计算。它不再调用LLM来实际评估每个提示词,而是训练一个轻量级的预测模型。这个模型学习根据提示词的特征来预测该提示词所能带来的成功率(Success Rate)
    • 优点极大地降低了计算成本。轻量级预测模型的计算开销与直接调用LLM相比,几乎可以忽略不计,使得大规模筛选提示词变得

三、 右半部分:MoPPS的工作流程详解

图片右侧详细描绘了MoPPS方法的内部运行机制,这是一个动态迭代的闭环系统:

  1. 预测 (Predict)

    • 系统从提示词库(Prompt Pool)中取出一批候选提示词。
    • 基于当前的后验参数(Posterior Parameters),MoPPS的预测模型为每一个候选提示词计算一个预测成功率。这个后验参数可以理解为预测模型当前学到的“知识”或“状态”。
  2. 选择 (Select)

    • 系统有一个预设的目标性能阈值 γ^*(例如,希望提示词能达到90%的成功率)。
    • 筛选策略是:选择那些预测成功率最接近这个目标 γ^* 的提示词。这一步确保了被选中的提示词既有高性能,又不会因为过于简单而缺乏挑战性(避免选择接近100%成功率的简单样本)。
  3. 训练 (Train) & 更新 (Update)

    • 将筛选出的优质提示词组成一个批次,用于训练(或微调)目标LLM
    • 关键的一步:在LLM使用这些提示词进行训练后,系统会收集新的反馈数据(即这些提示词在实际训练中的真实效果如何)。
    • 利用这些真实反馈数据,系统去更新后验参数(Update Posterior)。这就完成了一次学习循环,让预测模型变得更“聪明”,下一次预测的准确率更高。
  4. 循环 (Loop)

    • 整个过程(Predict -> Select -> Train -> Update)会不断重复,形成一个闭环。随着迭代的进行,MoPPS对提示词质量的预测越来越准,从而能够持续为LLM筛选出更高质量的训练数据,形成一个性能不断上升的良性循环。

总结

这张图有效地传达了一个核心创新:MoPPS方法通过用一个廉价的预测模型替代昂贵的LLM直接评估,解决了提示词自动选择中的计算成本瓶颈问题。

  • 它做了什么:建立了一个智能的、自适应的提示词筛选系统。
  • 它怎么做的:利用轻量级模型预测提示词质量,基于预测结果选择样本,再用真实反馈不断优化预测模型。
  • 它的优势:在几乎不牺牲效果的前提下,将筛选提示词的成本降低了几个数量级,使得大规模应用成为可能。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值