Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

一、文章主要内容

本文聚焦黑箱大型语言模型(LLMs)的对齐问题,指出当前提示优化方法与推理策略(如BEST-OF-N采样、MAJORITY VOTING)相互脱节的关键缺陷——现有提示优化忽略部署时的推理策略,且未考虑用户对多目标权衡和推理预算的偏好,导致模型性能不佳或资源浪费。

为解决该问题,作者提出IAPO(推理感知提示优化)框架,实现提示设计与推理规模的联合优化,同时兼顾任务目标与计算预算。为高效求解IAPO框架的最优策略,作者进一步设计PSST(通过序贯修剪实现提示缩放)算法,该算法基于固定预算的上下文最佳臂识别(BAI)思路,通过多轮修剪淘汰次优“臂”(由提示、推理配置和采样数量构成),并利用跨上下文、跨推理规模的信息复用降低计算成本。此外,还提出Top-K筛选启发式方法,在PSST前快速剔除明显次优提示,提升低预算场景下的效率。

在实验验证方面,作者在6个任务(包括多目标文本生成、数学推理、常识推理等)上评估PSST的性能。结果显示,PSST及其Top-K变体显著优于Uniform、ε-greedy、UCB等基线方法,且相比忽略推理策略的提示优化方法(如TRIPLE-SH),平均成本调整奖励(ACR)提升最高达50%,证明推理感知在黑箱LLM对齐中的核心作用。

二、文章创新点

  1. 提出IAPO框架,打破提示优化与推理策略的脱节:首次构建联合优化提示与推理规模的统一框架,明确建模用户对多目标(如有效性、无害性)和推理预算的偏好,解决传统方法“优化提示时忽略推理策略”的方法论缺口。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值