主要内容
- 研究背景:近年来大语言模型(LLMs)发展迅速,o1-like模型通过生成长思维链(CoT)推理步骤显著提升推理能力,但对其生成的推理链质量和有效性缺乏系统评估,且现有LLMs在长CoT推理步骤上的批判能力评估也未被充分探索。
- DeltaBench数据集
- 构建过程:从多个开源数据集提取查询,经聚类去重、难度过滤和子类别采样后得到高质量查询,用多种o1-like模型生成CoT解决方案,再将其分割为多个部分并进行人工标注。
- 评估指标:采用召回率、精确率和宏F1分数评估模型检测错误的能力,对过程奖励模型(PRMs)使用基于Z分数的异常值检测方法,对批判模型则用宏F1分数减轻类别不平衡的影响。
- 分析结果
- o1-like模型的错误分析:将错误分为8个主要方面和23种具体类型,发现数学领域主要错误类型为推理错误、理解错误和计算错误;编程领域为推理错误、形式错误和理解错误;PCB领域为理解错误、知识错误和推理错误;通用推理领域为推理错误和理解错误。
- o1-like模型