本文是LLM系列文章,针对《Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks》的翻译。
摘要
自然语言处理(NLP)系统领域的快速发展和大型语言模型(LLMs)的扩展为教育和教学方法领域开辟了众多机会。这些进步提供了定制学习体验和即时反馈的潜力,所有这些都是通过可访问且具有成本效益的服务提供的。这项技术进步的一个显著应用领域是解决数学问题。数学问题解决不仅需要破译复杂问题陈述的能力,还需要在问题解决过程的每一步都进行精确算术计算的技能。然而,对大型语言模型的算术能力的评估仍然是一个相对较少受到关注的领域。作为回应,我们介绍了一个名为“MathQuest”的广泛数学数据集,该数据集来自第11和第12版标准数学NCERT教科书。该数据集涵盖了各种复杂度的数学挑战,并涵盖了广泛的数学概念。利用这个数据集,我们对三个著名的LLM进行了微调实验:LLaMA2、WizardMath和MAmmoTH。这些经过微调的模型可作为评估其在我们的数据集上的性能的基准。我们的实验表明,在三种模型中,MAmmoTH-13B是最熟练的,在解决所提出的数学问题方面达到了最高水平的能力。因此,MAmmoTH-13B将自己确立为解决NCERT数学问题的稳健可靠的基准。GitHub存储库: