本文是LLM系列文章,针对《CRITIC-COT: BOOSTING THE REASONING ABILITIES OF LARGE LANGUAGE MODEL VIA CHAIN-OFTHOUGHTS CRITIC》的翻译。
摘要
自我批评已成为提高LLM推理能力的重要机制。然而,目前的方法主要涉及基本提示,未经进一步训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决绩效之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将LLM推向类似 System-2 的批评家能力,而不需要人工注释。在 GSM8K 和 MATH 上的实验表明,通过过滤掉无效的解决方案或迭代细化,我们的增强模型提高了任务解决性能,这证明了我们方法的有效性。此外,我们发现仅针对批评和改进的训练就可以改善生成。我们希望我们的工作能够为未来提高LLM推理和批判能力的研究提供启示。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在本文中,我们引入了 Critic-CoT 范式