本文是LLM系列文章,针对《The Impact of Reasoning Step Length on Large Language Models》的翻译。
摘要
思维链(CoT)对提高大型语言模型(LLM)的推理能力具有重要意义。然而,CoT的有效性与提示中推理步骤的长度之间的相关性在很大程度上仍然未知。为了阐明这一点,我们进行了几个实证实验来探索它们之间的关系。具体来说,我们设计了实验,在CoT演示中扩展和压缩基本原理推理步骤,同时保持所有其他因素不变。我们有以下主要发现。首先,结果表明,延长提示中的推理步骤,即使不在提示中添加新信息,也能显著提高LLM在多个数据集上的推理能力。或者,即使在保留关键信息的情况下,缩短推理步骤也会显著削弱模型的推理能力。这一发现强调了CoT提示中步骤数量的重要性,并为更好地利用LLM在复杂问题解决场景中的潜力提供了实用指导。其次,我们还调查了CoT的性能与演示中使用的理由之间的关系。令人惊讶的是,结果表明,即使是不正确的推理,如果它们保持必要的推理长度,也会产生有利的结果。第三,我们观察到增加推理步骤的优势取决于任务:更简单的任务需要更少的步骤,而复杂的任务从更长的推理序列中获得显著的收益。代码位于https://github.com/jmyissb/The-Impact-of-Reasoning-Step-Length-onLarge-Language-Models。