ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

ParaThinker:并行推理新范式


近期,大语言模型(LLM)的进展主要依赖于“测试时计算扩展”这一策略,即 通过生成更长的、顺序化的思考过程来提升推理能力。尽管这种方法有效,但随着计算量的增加,它会遇到一个显著的瓶颈—— 进一步的计算所带来的性能提升变得非常有限。我们认为,这一瓶颈并非模型能力的固有限制,而是 扩展策略本身存在缺陷,我们将这一现象称为**“隧道视野” (Tunnel Vision),即模型在初始步骤中的不完美决定使其陷入次优的推理路径**。

为解决这一问题,我们提出了一种全新的扩展范式:原生思维并行。我们推出了 ParaThinker,这是一种端到端的框架,训练大语言模型同时生成多个多样化的推理路径,并将这些路径综合为一个更优的最终答案。通过同时探索不同的思考路线,ParaThinker 有效避开了“隧道视野”问题,释放了模型潜在的推理能力。

我们的研究表明,并行扩展计算(宽度)比单纯地顺序扩展(深度)在提升推理能力方面更加高效。在具有挑战性的推理基准测试中,ParaThinker 相比顺序式大语言模型取得了显著的准确率提升(平均而言,1.5B 和 7B 模型在使用 8 条并行路径时分别提升了 12.3% 和 7.5%),而仅带来了可忽略的延迟开销(7.1%)。这一成果使得小型模型能够超越大型模型的表现,并确立了并行思考作为未来大语言模型扩展中一个关键且高效的维度。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值