WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

828 篇文章

已下架不支持订阅

本文提出WizardMath,通过强化学习方法RLEIF改进LLM的数学推理,尤其在GSM8k和MATH基准上超越其他开源模型,包括ChatGPT-3.5和GPT-3。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列的文章,针对《WizardMath: Empowering Mathematical Reasoning
for Large Language Models via Reinforced Evol-Instruct》的翻译。

WizardMath:通过强化进化指令为大型语言模型提供数学推理能力

摘要

大型语言模型(LLM),如GPT-4,在自然语言处理(NLP)任务中表现出了显著的性能,包括具有挑战性的数学推理。然而,大多数现有的开源模型只是在大规模互联网数据上进行了预训练,没有进行数学优化。在本文中,我们提出了WizardMath,它通过将我们提出的从进化指令反馈的强化学习(RLEIF)方法应用于数学领域来增强Llama-2的数学推理能力。通过对GSM8k和MATH两个数学推理基准的大量实验,我们揭示了我们模型的非凡能力。WizardMath在很大程度上超过了所有其他开源LLM。此外,我们的模型在GSM8k上甚至优于ChatGPT-3.5、Claude Instant-1、PaLM-2和Minerva,在MATH上同时超过Text-davinci-002、PaLM-1和GPT-3。更多细节和模型权重可在https://github.com/nlpxucan/WizardLM

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值