本文是LLM系列文章,针对《FineMath: A Fine-Grained Mathematical Evaluation Benchmark for
Chinese Large Language Models》的翻译。
摘要
为了全面评估大型语言模型(LLM)的数学推理能力,我们需要仔细策划涵盖不同数学概念和不同难度的数学问题的评估数据集。为了实现这一目标,我们在本文中提出了FineMath,这是一个用于评估中文LLM的细粒度数学评估基准数据集。FineMath旨在涵盖小学数学中教授的主要关键数学概念,这些概念又分为17类数学单词问题,从而能够深入分析LLM的数学推理能力。根据解决这些问题所需的推理步骤的数量,手动注释所有17类数学单词问题的难度等级。我们在FineMath上对各种LLM进行了广泛的实验,发现中文LLM的数学推理能力仍有相当大的改进空间。我们还对之前被忽视的评估过程和方法进行了深入分析。这两个因素显著影响模型结果以及我们对其数学推理能力的理解。该数据集将很快公开。
1 引言
2 相关工作
3 数据收集和注释
4 数据统计和分析
5 实验
6 分析
7 结论
我们提出了一个细粒度的基准FineMath,来全面评估中文LLM的数学能力。我们努力评估尽可能

FineMath是一个用于评估中文大型语言模型(LLM)数学推理能力的细粒度基准数据集,涵盖小学数学关键概念,分为17类问题,并手动注释难度等级。实验显示LLM在数学推理上仍有提升空间,数据集即将公开。
订阅专栏 解锁全文
945

被折叠的 条评论
为什么被折叠?



