文章主要内容和创新点总结
主要内容
本文聚焦于提升大型语言模型(LLMs)的规划与推理能力,针对现有研究中可扩展数据生成和严格评估的瓶颈,提出了全自动系统NL2FLOW。该系统能够参数化生成规划问题(涵盖自然语言描述、结构化中间表示和形式化PDDL格式),并对LLM生成的计划质量进行严谨评估。
研究通过NL2FLOW生成了2296个工作流生成领域的规划问题,评估了多个开源指令微调LLM的表现,主要发现包括:
- 最优模型在可行问题上的有效计划生成率达86%,最优计划生成率达69%;
- 问题特征对计划生成的影响取决于模型和提示设计;
- 将推理任务分解为中间翻译步骤(如自然语言转JSON)可能降低性能,直接从自然语言推理到行动的模型表现更优。
创新点
- 可扩展参数化数据生成:NL2FLOW通过随机和参数化方式生成数据,规模仅受符号规划器的计算能力限制,无需人工或LLM干预,适合大规模训练和程序化奖励计算。
- 多格式数据支持:生成的数据包含自然语言、Python对象中间表示和PDDL,支持LLM的训练与评估,以及符号化的计划验证。
- 严谨的符号评估:利用PDDL进行计划的有效性(是否达成目标)和最优性(与符号规划器生成的最优计划长度对比)评估,提供数学上可保证的指标。
- 揭示推理任务分解的局限性