本文是LLM系列文章,针对《ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models》的翻译。
摘要
本文介绍了ConceptMath,这是一个中英文对照的细粒度基准,用于评估大型语言模型(LLM)的概念数学推理。与以平均精度评估一般数学推理的传统基准不同,ConceptMath将数学问题系统地组织在数学概念的层次结构下,从而可以以不同的粒度以概念精度评估数学推理。基于我们的ConcepthMath,我们评估了广泛的LLM,并观察到现有的LLM尽管在传统基准上实现了高平均精度,但在不同的数学概念中表现出显著的性能差异,甚至可能在最基本的概念上灾难性地失败。此外,我们还引入了一种有效的微调策略,以增强现有LLM的弱点。最后,我们希望ConceptMath能够引导开发人员了解他们模型的细粒度数学能力,并促进基础模型的发展。
1 引言
2 ConceptMath
3 实验
4 相关工作
5 结论
我们引入了一个新的双语概念数学推理数据集ConceptMath,用于评估不同概念集的模型。首先,ConceptMath涵盖了主流英语和汉语系统中小学的200多个概念。其次,我们通过三种提示方法对现有的LLM进行了