本文是LLM系列文章,针对《MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning》的翻译。
摘要
众所周知,工具增强的大型语言模型(TALM)可以增强大型语言模型的技能,从而提高它们在许多任务中的推理能力。尽管TALM已成功应用于不同的问答基准,但它们在复杂数学推理基准上的功效,以及知识检索和数学方程求解工具提供的潜在互补优势,都是开放的研究问题。在这项工作中,我们提出了MATHSENSEI,一个用于数学推理的工具增强的大型语言模型。我们通过对数学推理数据集的评估,研究了知识检索器(Bing Web Search)、程序生成器+执行器(Python)和符号方程求解器(WolframAlpha-API)等工具的互补优势。我们对MATH进行了详尽的分析,MATH是一个用于评估不同数学学科数学推理的流行数据集。我们还进行了涉及知名工具规划师的实验,以研究工具排序对模型性能的影响。MATHSENSEI在MATH数据集上使用思想链实现了比gpt-3.5-turbo高13.5%的精度。我们进一步观察到,TALM对更简单的数学单词问题(在GSM-8K中)没有那么有效,并且随着复杂性和所需知识的增加,其益处也会增加(逐渐超过AQuA、MMLU数学和数学中更高级别的复杂问题)。代码和数据在https://github.com/Debrup61/MathSensei可用。

MATHSENSEI是一个工具增强的大型语言模型,专注于数学推理。通过结合知识检索、程序生成和执行、符号方程求解工具,该模型在MATH数据集上相对于gpt-3.5-turbo提高了13.5%的精度。然而,对于较简单的数学问题,TALM的优势不明显,复杂性和所需知识的增加会带来更大收益。
订阅专栏 解锁全文
3049

被折叠的 条评论
为什么被折叠?



