rStar:让小型语言模型成为强大的问题解决者

rStar:让小型语言模型成为强大的问题解决者

rStar rStar 项目地址: https://gitcode.com/gh_mirrors/rst/rStar

项目介绍

rStar 是一种基于自我游戏和相互推理的先进技术,旨在显著提升小型语言模型(SLMs)的推理能力。该技术无需微调或依赖更高级的模型,通过分离推理过程为生成和相互验证两部分,实现了对现有语言模型推理能力的增强。

项目技术分析

rStar 的核心在于将推理过程拆分为两个阶段:生成阶段和相互验证阶段。生成阶段引入了丰富的人类样推理动作,使得蒙特卡洛树搜索(MCTS)能够构建更高质量的推理轨迹。验证阶段,另一个与目标SLM能力相似的语言模型作为判别器,对生成器产生的轨迹进行验证。两个模型相互认可的推理轨迹被认为是相互一致的,从而更有可能是正确的。

在生成阶段,rStar 引入了一套更加丰富的推理动作,使得搜索空间更加全面,有助于在多种推理任务中探索解决方案。在相互验证阶段,判别器的引入加强了MCTS过程,确保推理轨迹的正确性。

项目及技术应用场景

rStar 可以应用于各种需要强大推理能力的场景,如数学问题解答、自然语言理解任务、逻辑推理等。以下是一些典型的应用场景:

  • 数学问题解答:rStar 可以显著提高小模型在数学推理任务中的准确率,如 GSM8K 数据集上的准确率提升显著,从12.51%提升到63.91%。
  • 自然语言理解:rStar 的推理能力适用于对自然语言理解要求较高的任务,如语义解析、问答系统等。
  • 逻辑推理:在逻辑推理任务中,rStar 通过自我游戏和相互验证的方式,提高了推理的准确性和效率。

项目特点

  1. 无需微调:rStar 不需要针对特定任务进行微调,减少了数据需求和计算资源。
  2. 自增强:通过自我游戏,模型可以自行探索和改进推理策略。
  3. 相互验证:通过另一个相似能力的SLM进行验证,提高了推理轨迹的一致性和正确性。
  4. 广泛适用性:rStar 在多个SLM上均取得了显著的性能提升,表明其具有广泛的适用性。

以下是一个rStar在GSM8K数据集上的推理过程示意图:

rStar推理过程

使用方法

生成器

运行rStar生成器的示例如下:

bash scripts/run_gsm8k_generator.sh

生成器脚本包含多个可配置参数,如数据集名称、测试文件名、模型检查点路径等,用户可以根据需求调整。

评估生成器

评估rStar生成器结果的示例如下:

python eval_src/do_eval.py --dataset_name GSM8K --exp_dir_path <generator_output_folder>
判别器

运行rStar判别器的示例如下:

bash scripts/run_gsm8k_discriminator.sh

判别器脚本同样包含多个可配置参数,如模型检查点路径、评估结果文件夹路径等。

实验结果

rStar 在五个不同的SLM上进行了广泛实验,结果显示其在多样推理任务上均取得了显著提升。例如,在GSM8K数据集上,LLaMA2-7B 的准确率从12.51%提升至63.91%,Mistral-7B 从36.46%提升至81.88%,LLaMA3-8B-Instruct 从74.53%提升至91.13%。

rStar实验结果

引用

如果认为rStar的工作对您有所帮助,请考虑引用以下文献:

@misc{qi2024mutual,
    title={Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers},
    author={Zhenting Qi and Mingyuan Ma and Jiahang Xu and Li Lyna Zhang and Fan Yang and Mao Yang},
    year={2024},
    eprint={2408.06195},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

rStar 的创新技术和显著成果,使其成为小型语言模型推理能力提升的重要方向,值得广泛关注和应用。

rStar rStar 项目地址: https://gitcode.com/gh_mirrors/rst/rStar

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强懿方

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值