SCALING LLM PLANNING: NL2FLOW FOR PARAMETRIC PROBLEM GENERATION AND RIGOROUS EVALUATION

文章主要内容和创新点总结

主要内容

本文聚焦于提升大型语言模型(LLMs)的规划与推理能力,针对现有研究中可扩展数据生成和严格评估的瓶颈,提出了全自动系统NL2FLOW。该系统能够参数化生成规划问题(涵盖自然语言描述、结构化中间表示和形式化PDDL格式),并对LLM生成的计划质量进行严谨评估。

研究通过NL2FLOW生成了2296个工作流生成领域的规划问题,评估了多个开源指令微调LLM的表现,主要发现包括:

  1. 最优模型在可行问题上的有效计划生成率达86%,最优计划生成率达69%;
  2. 问题特征对计划生成的影响取决于模型和提示设计;
  3. 将推理任务分解为中间翻译步骤(如自然语言转JSON)可能降低性能,直接从自然语言推理到行动的模型表现更优。
创新点
  1. 可扩展参数化数据生成:NL2FLOW通过随机和参数化方式生成数据,规模仅受符号规划器的计算能力限制,无需人工或LLM干预,适合大规模训练和程序化奖励计算。
  2. 多格式数据支持:生成的数据包含自然语言、Python对象中间表示和PDDL,支持LLM的训练与评估,以及符号化的计划验证。
  3. 严谨的符号评估:利用PDDL进行计划的有效性(是否达成目标)和最优性(与符号规划器生成的最优计划长度对比)评估,提供数学上可保证的指标。
  4. 揭示推理任务分解的局限性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值