Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

主要内容

  1. 研究背景:近年来大语言模型(LLMs)发展迅速,o1-like模型通过生成长思维链(CoT)推理步骤显著提升推理能力,但对其生成的推理链质量和有效性缺乏系统评估,且现有LLMs在长CoT推理步骤上的批判能力评估也未被充分探索。
  2. DeltaBench数据集
    • 构建过程:从多个开源数据集提取查询,经聚类去重、难度过滤和子类别采样后得到高质量查询,用多种o1-like模型生成CoT解决方案,再将其分割为多个部分并进行人工标注。
    • 评估指标:采用召回率、精确率和宏F1分数评估模型检测错误的能力,对过程奖励模型(PRMs)使用基于Z分数的异常值检测方法,对批判模型则用宏F1分数减轻类别不平衡的影响。
  3. 分析结果
    • o1-like模型的错误分析:将错误分为8个主要方面和23种具体类型,发现数学领域主要错误类型为推理错误、理解错误和计算错误;编程领域为推理错误、形式错误和理解错误;PCB领域为理解错误、知识错误和推理错误;通用推理领域为推理错误和理解错误。
    • o1-like模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值