本文是LLM系列的文章,针对《WizardMath: Empowering Mathematical Reasoning
for Large Language Models via Reinforced Evol-Instruct》的翻译。
摘要
大型语言模型(LLM),如GPT-4,在自然语言处理(NLP)任务中表现出了显著的性能,包括具有挑战性的数学推理。然而,大多数现有的开源模型只是在大规模互联网数据上进行了预训练,没有进行数学优化。在本文中,我们提出了WizardMath,它通过将我们提出的从进化指令反馈的强化学习(RLEIF)方法应用于数学领域来增强Llama-2的数学推理能力。通过对GSM8k和MATH两个数学推理基准的大量实验,我们揭示了我们模型的非凡能力。WizardMath在很大程度上超过了所有其他开源LLM。此外,我们的模型在GSM8k上甚至优于ChatGPT-3.5、Claude Instant-1、PaLM-2和Minerva,在MATH上同时超过Text-davinci-002、PaLM-1和GPT-3。更多细节和模型权重可在https://github.com/nlpxucan/WizardLM和