偏好链优化改进大语言模型

hanscalZheng

于 2024-12-08 07:33:12 发布

阅读量306

点赞数 3

分类专栏：大语言模型文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43145427/article/details/144321061

版权

大语言模型专栏收录该内容

146 篇文章

订阅专栏

论文介绍了一种名为“偏好链优化”（Chain of Preference Optimization，CPO）的方法，旨在改善大型语言模型（LLMs）在复杂问题解决中的链式推理能力。虽然传统的链式推理（CoT）能够生成逻辑推理路径，但这些路径往往不是最优的。为此，作者提出树状推理（ToT）方法，通过树搜索探索推理空间，以寻找更优的推理路径，但这会显著增加推理的复杂性。CPO通过对LLMs进行微调，使其在推理时遵循ToT方法发现的最佳路径，同时降低了推理负担。实验结果表明，CPO在多个任务上的表现优于或等同于ToT，但推理速度快得多，证明了该方法的有效性。

在这里插入图片描述

1 偏好链优化

偏好思想生成：

在每个推理步骤中，CPO首先生成多个推理思想（thoughts）。每个思想代表一种可能的推理路径。通过对当前状态的分析，模型会生成多个候选思想，以供后续评估和选择。

· 状态评估：

每个生成的思想会经过评估，以确定其在解决特定问题上的有效性。评估过程通过模型自我评估来实现，使用特定的标准对思想进行打分，分数高的思想被视为更有可能有助于得到最终答案。

· 偏好数据收集：

通过对生成的思想进行筛选，CPO构建了偏好数据集。每个推理步骤中，模型会将被选中和未被选中的思想进行配对，形成“优先”与“非优先”的思想对。这种配对为后续的模型训练提供了基础。

· 模型微调：

在收集到偏好数据后，CPO使用这些数据对LLMs进行微调。具体而言，模型被训练成更倾向于生成那些在推理过程中被评估为“优先”的思想，从而增强其在解决问题时的推理能力。

· 避免推理复杂性：

CPO的设计旨在减少推理时的复杂性，通过在训练阶段利用树状推理过程中的信息，使得在实际推理过程中模型能以较低的计算成本生成更高质量的推理路径。

在这里插入图片描述

2 结语

论文提出了偏好链优化（CPO）方法，通过对大型语言模型进行微调，使其在复杂问题推理中生成更优的逻辑推理路径，同时显著降低推理复杂性。

论文题目： Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

论文链接： https://arxiv.org/abs/2406.09136

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。