真香!EVOPROMPT:用进化算法自动优化大模型提示,告别996调参,性能提升25%

1.Introduction

大型语言模型(LLMs)在众多 NLP 任务中表现卓越,但其性能往往严重依赖高质量的离散提示(discrete prompts)。人工设计提示不仅耗费大量时间与专业经验,而且缺乏系统化指导,使提示工程成为影响模型表现的瓶颈。现有自动提示优化方法要么依赖模型的梯度或 token 概率(黑盒 API 场景中难以获取),要么仅在已有提示上进行局部编辑或从大量候选中挑选,从而分别导致探索不足或易陷入局部最优,难以获得真正高质量的提示。

基于此,论文提出 EVOPROMPT,一种将 进化算法(EAs)LLMs 相结合的离散提示优化框架。此方法利用 LLM 的语言生成能力来执行进化操作(如变异、交叉),确保产生的提示自然、连贯、可读,同时借助 EAs 的选择机制在验证集上筛选更优解,实现对提示空间的高效搜索。EVOPROMPT 从人工与自动生成的初始提示出发,经多轮迭代不断提升提示质量。在涵盖分类、生成及推理等 31 个任务上的实验表明,EVOPROMPT 在 GPT-3.5 与 Alpaca 上均显著超过人工提示及已有自动提示方法,在部分任务上可取得高达 25% 的提升,展示了将 LLM 与传统优化算法结合的强大潜力。

2. RELATED WORKS

RELATED WORKS 主要分为三个方向。首先,在 LLMs 的提示方法 上,早期大量研究集中于连续提示(continuous / soft prompts),通过优化一小段可训练向量来适配下游任务,这类方法在性能上有效,但需要访问模型参数与梯度,无法用于 GPT-3/4 这类黑盒 API,而且得到的软提示缺乏可解释性。与之相对,离散提示(discrete prompts) 只是在输入中加入自然语言指令或若干离散 token,如 “Classify the comment into positive or negative.”,具有更好的人机可读性,也适用于各类 LLM 接口,因此受到越来越多关注。现有离散提示自动化方法大多要么依赖模型输出层的 token 概率或梯度,要么通过枚举大量候选提示再选最佳,或对已有提示做小幅编辑、基于错误样本做诊断式修改,这些方法要么偏“探索”,效率低、容易浪费算力,要么偏“开发”,易陷入局部最优,且通常难以统一适用于理解与生成任务。

其次,在 LLMs 与优化算法结合 方面,已有工作一方面把大模型当作“黑箱优化器”直接搜索解,但这种方式缺乏可解释性;另一方面,研究者发现 LLM 可以在离散空间中模仿传统优化算法的具体操作:例如通过收集错误样本来模拟“梯度下降”,或在遗传算法(GA)中实现 mutation、crossover 等算子,并已在神经架构搜索和游戏设计等场景中尝试结合 GA 与 LLM。与这些点状尝试不同,本文提出的 EVOPROMPT 旨在构建一个 通用框架:系统性地把 LLM 作为进化算子的实现者,把 GA、差分进化(DE)等进化算法作为搜索与选择的外层机制,从而在提示优化场景下全面利用两者的优势,也为今后将 LLM 与更多传统算法(如 PSO、ACO 等)结合提供思路。

3 AUTOMATIC DISCRETE PROMPT OPTIMIZATION

本节首先强调离散提示优化在黑盒 LLM 场景中的重要性,并指出传统进化算法(EAs)虽然适合无梯度优化,但其直接操作 token 会破坏语言的语义与可读性。为解决这一核心矛盾,EVOPROMPT 的关键创新在于让 LLM 承担进化操作本身的生成任务:进化算子如 mutation、crossover 不再由简单的字符串编辑来实现,而是通过提示 LLM 按进化规则“生成”语义连贯的新提示,从而保持自然语言完整性。与此同时,整个候选提示搜索过程仍由经典 EAs 提供的种群演化、适者生存机制来管理,使优化在探索(寻找多样化结构)和开发(强化已知有效结构)之间保持平衡。此外,EVOPROMPT 的迭代框架保证系统能够在多轮改进中逐步提升提示质量,最终在验证集上找到最优提示。总的来说,该节展示了一个将传统优化算法与自然语言生成能力深度融合的全新范式,使得原本无法直接应用进化算子的语言空间得以有效搜索。

EVOPROMPT 的框架由三个关键步骤组成:种群初始化、进化过程、更新策略。在初始化阶段,作者强调有别于全随机起点的方法,引入了两类提示:人类编写的高质量提示与 LLM 自动生成的多样化提示,使初始种群兼具性能基础与结构多样性,更利于搜索空间的有效探索。在进化阶段,EVOPROMPT 通过 LLM 实现具体的进化操作,使 mutation、crossover 等操作产生语言自然、语义一致的新提示。在此过程中,LLM 根据设计好的、逐步分解的指令模板来执行进化步骤,确保操作符合对应的 EA 算法逻辑。最后,更新策略根据验证集表现对种群进行筛选,不同 EA 对更新方式的定义有所差异:GA 会将新旧提示合并排序,而 DE 会采用逐点比较式替换。整个框架通过迭代上述三步,使提示在连续周期中不断改善,最终输出最优提示。该节明确展示 EVOPROMPT 的通用性,即只需替换进化算子与更新规则即可快速适配任意类型的进化算法。

在 GA 的实例化中,EVOPROMPT 完整保留了遗传算法的三大步骤:选择、交叉、变异。首先,通过轮盘赌策略,根据提示在验证集上的得分分配概率,较优提示更容易被选为父代,从而实现基于性能的“自然选择”。接着,LLM 以两个父提示为输入,根据指定的交叉指令模板生成一个融合两者关键信息的新提示,使 GA 中的“基因重组”以语言生成形式呈现。随后,LLM 对交叉生成的提示进行变异,以小范围语义修改引入必要的探索性。每次迭代中,会为每个原提示生成一个新的 offspring,从而产生规模为 N 的新族群。GA 的更新策略将新旧提示集合合并后选取得分最高的 N 个,保证种群整体质量不断提升。作者通过图示展示了 LLM 如何理解父提示并执行跨句级别的内容整合与语义变化,使 GA 不再是基于 token 的盲目编辑,而是语言层面的结构性重构。

差分进化(DE)在连续空间中的核心机制是利用解与解之间的差分构造新的候选解;在 EVOPROMPT 中,这一思想被自然地迁移到语言空间,通过 LLM 来模拟差分的概念。本节将 DE 分解为三个步骤并全部由 LLM 生成:① 差分向量构造:选取两个提示,将它们“不同的部分”视作 b − c,并对这些差异部分执行语义级别的随机变异,模拟 F(b − c)。② 与基准提示融合:选择当前种群中表现最好的提示作为 a,将变异后的差异部分有选择地替换进其中,生成 y,模拟 a + F(b − c),这是 DE 中的“引导最优解”机制。③ 交叉生成最终提示:将 y 与当前基准提示 x 进行交叉,部分替换以生成最终候选提示 x′。最终通过比较 x 与 x′ 在验证集上的表现,保留更优者,使种群在不断微调中进步。DE 的优势在于利用种群差异进行有方向的进化,特别适用于初始提示质量较低或提示空间复杂的任务,因此作者观察到 DE 在难度较高或语义变化显著的任务中表现更好(如后续实验中的主观性分类)。图 2 展示了 LLM 如何逐步骤执行 DE 的逻辑,使差分结构以自然语言形式实现。

4 EXPERIMENTS

实验部分系统评估了 EVOPROMPT 在多类型任务、不同模型及多种对比方法下的表现,验证其在离散提示优化中的有效性与泛化性。作者在 Alpaca-7B 与 GPT-3.5 上分别进行提示优化,并在 31 个数据集上测试,涵盖三类任务:(1)自然语言理解任务,包括情感分类、主题分类、主客观分类等 7 个常用 benchmark;(2)自然语言生成任务,包括对话摘要(SAMSum)与文本简化(ASSET);(3)复杂推理任务,即 BIG-Bench Hard(BBH)中的 23 个高难度 reasoning 子任务。在实验设置上,EVOPROMPT 由 GPT-3.5 执行进化操作,生成新提示,并依据验证集表现筛选最优提示;对比基线包括人工设计提示(MI)、PromptSource 与 Natural Instructions 等人类编写库,以及代表现有自动提示优化方法的 APE 与 APO。结果显示:在理解类任务中,EVOPROMPT-GA 与 DE 均显著优于人工提示与自动方法,且 DE 在结构复杂或初始提示质量不佳的任务(如 Subj)上表现尤其突出;在生成类任务中,EVOPROMPT 在 ROUGE 与 SARI 指标上均超越人工提示与 APE,在 Alpaca 与 GPT-3.5 上获得稳定增益;在 BBH 推理任务中,EVOPROMPT 为全部 22 个适用任务找到更优提示,DE 版本平均提升 3.5%,最高增幅可达 25%,说明其强大的探索能力更适合复杂推理情境。总体而言,本节实验充分展示 EVOPROMPT 在不同任务类型、不同模型环境及不同提示质量起点下的稳健优势,并强调 LLM 与进化算法联动带来的协同能力,为自动提示设计提供了新的可行范式。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值