论文介绍了一种名为“偏好链优化”(Chain of Preference Optimization,CPO)的方法,旨在改善大型语言模型(LLMs)在复杂问题解决中的链式推理能力。虽然传统的链式推理(CoT)能够生成逻辑推理路径,但这些路径往往不是最优的。为此,作者提出树状推理(ToT)方法,通过树搜索探索推理空间,以寻找更优的推理路径,但这会显著增加推理的复杂性。CPO通过对LLMs进行微调,使其在推理时遵循ToT方法发现的最佳路径,同时降低了推理负担。实验结果表明,CPO在多个任务上的表现优于或等同于ToT,但推理速度快得多,证明了该方法的有效性。
1 偏好链优化
偏好思想生成:
在每个推理步骤中,CPO首先生成多个推理思想(thoughts)。每个思想代表一种可能的推理路径。通过对当前状态的分析,模型会生成多个候选思想,以供后续评估和选择。
· 状态评估:
每个生成的思想会经过评估,以确定其在解决特定问题上的有效性。评估过程通过模型自我评估来实现,使用特定的标准对思想进行打分,分数高的思想被视为更有可能有助于得到最终答案。
· 偏好数据收集:
通过对生成的思想进行筛选,CPO构建了偏好数据集。每个推理步骤中,模型会将被选中和未被选中的思想进行配对,形成“优先”与“非优先”的思想对。这种配对为后续的模型训练提供了基础。
· 模型微调:
在收集到偏好数据后,CPO使用这些数据对LLMs进行微调。具体而言,模型被训练成更倾向于生成那些在推理过程中被评估为“优先”的思想,从而增强其在解决问题时的推理能力。
· 避免推理复杂性:
CPO的设计旨在减少推理时的复杂性,通过在训练阶段利用树状推理过程中的信息,使得在实际推理过程中模型能以较低的计算成本生成更高质量的推理路径。
2 结语
论文提出了偏好链优化(CPO)方法,通过对大型语言模型进行微调,使其在复杂问题推理中生成更优的逻辑推理路径,同时显著降低推理复杂性。
论文题目: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
论文链接: https://arxiv.org/abs/2406.09136
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!