New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量317

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Inference Causal and Reasoning 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140750479

LLM Daily 同时被 3 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

134 篇文章

订阅专栏

60 篇文章

订阅专栏

本文是LLM系列，针对《New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models》的翻译。

大型语言模型逐步推理的新评估、库和分析

摘要
1 引言
2 相关工作
3 AutoRace：自动推理链评估
4 LLM推理机：统一的公式和库
5 LLM分步推理分析
6 结论

摘要

生成准确的逐步推理对于大型语言模型（LLM）解决复杂问题、增强鲁棒性和可解释性至关重要。尽管关于开发高级推理方法的研究层出不穷，但系统分析生成推理链中的各种LLM和推理策略仍然是一个重大挑战。困难源于缺乏两个关键要素：（1）用于评估不同任务上生成的推理链的自动方法，以及（2）用于系统比较的不同推理方法的统一形式和实现。本文旨在填补这一空白：（1）我们引入了AutoRace用于全自动推理链评估。现有的指标依赖于昂贵的人工注释或预定义的LLM提示，无法适应不同的任务。相比之下，AutoRace会自动为每个任务创建详细的评估标准，并使用GPT-4根据标准进行准确评估。（2）我们开发了LLM Reasoners，这是一个在搜索、奖励和世界模型组件的统一公式下，对现有和新的推理算法进行标准化模块化实现的库。通过新的评估和库，（3）我们对不同的推理方法（如CoT、ToT、RAP）进行了广泛的研究。该分析揭示了关于影响推理的不同因素的有趣发现，包括奖励指导、搜索的广度与深度、世界模型和提示格式等。

1 引言

2 相关工作

3 AutoRace：自动推理链评估

4 LLM推理机：统一的公式和库

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。