本文是LLM系列文章,针对《Can Small Language Models Help Large Language Models Reason
Better?
摘要
我们介绍了一种新的框架,LM Guided CoT,它利用轻量级(即<1B)语言模型(LM)来指导推理任务中的黑盒大(即>10B)LM。具体来说,轻量级LM首先为每个输入实例生成一个基本原理。然后,冻结的大型LM会被提示根据轻量级LM生成的基本原理预测任务输出。我们的方法是资源高效的,因为它只需要训练轻量级的LM。我们通过1)知识蒸馏和2)从面向理论基础和面向任务的奖励信号中强化学习来优化模型。我们使用多跳提取式问答(QA)基准、HotpotQA和2WikiMultiHopQA来评估我们的方法。实验结果表明,我们的方法在答案预测精度方面优于所有基线。我们还发现,强化学习有助于模型产生更高质量的理由,并提高QA表现。
1 引言
2 相关工作
3 LM引导的思维链
4 实验和结果
5 结论
LM引导CoT是一种新的框架,它使用两个模型将传统的CoT提示分解为两个步骤:(1)基本原理生成和(2)答案预测。这包括将推理能力从大型LM提取到小型LM,并用RL进一步优化。结果表明,我们的方法优于所有基线,突显了它作为一种有效和资源高效的方法来解决CoT提示范式中的挑战的潜力。同时,我们还发现,为答案预测选择高质量的理由

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



