前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文,并正式将o1-like的LLM更名为LRM(大型推理模型)。


LLM仍然不能很好的规划
尽管LLMs在处理语言相关的任务上取得了显著的进展,但它们在需要复杂规划和推理的任务上仍然表现不佳。
通过使用PlanBench基准测试对多个LLMs进行了评估,包括在Blocksworld(经典的规划领域)问题的静态数据集上测试它们的表现:
-
在未混淆(常规)Blocksworld问题上,最好的LLMs(如LLaMA 3.1 405B)达到了62.6%的准确率。
-
然而,在语义相同但句法混淆的Mystery Blocksworld问题上,所有LLMs的表现都远远落后,没有一款模型的准确率超过5%。
在Blocksworld和Mystery Blocksworld领域600个实例上的性能,涵盖了使用zero-shot和one-shot提示的不同家族的大型语言模型。表现最好的准确率以粗体显示。
OpenAI o1推理规划能力评测

最低0.47元/天 解锁文章
663

被折叠的 条评论
为什么被折叠?



