Long-CoT后,推理模型的「思维模板」有哪些新玩法?

作者 | Pro会员通讯 编辑 | 机器之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

基于思维链(Chain-of-Thought)的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长链思维」的「模板」怎么魔改更高效?哪些「模板」能带来更高的推理能力上限?

目录

01. 推理模型后训练效果好,「思维模板」少不了?

「思维模板」可用在哪些后训练环节?近期有哪些新的模板设计?...

02. 提高推理效率,「思维模板」是如何工作的?

长链思维的模板怎么改更高效?...

03. 哪些「思维模板」能提高模型的推理能力上限?

CoT 怎么设计能让LLM的推理效果更好?把代码改成CoT会更强吗?

04. 多模态推理模型的「思维模板」应如何构建?

多模态推理有哪些思维模板?现有的模板哪些更强?

01 推理模型后训练效果好,「思维模板」少不了?

在 LLMs 中的「推理」仍然是一个有争议的话题,现有的许多模型可以产生看起来逻辑连贯的回应,但它们的推理方式与人类的逻辑推理截然不同。而近期许多推理模型在 test-time Scaling 中取得突破,通过让模型产生更长的 CoT 来实现更强的推理能力,也引发了许多对该技术的深入研究。CoT 如同推理模型提供了一套套「思维模板」,在后训练的多个环节里扮演着重要角色。

1、在推理模型的后训练中,以思维链(CoT)为代表的推理策略的核心在于类似提供一套「思维模板(Template)」,让模型将问题分解为逐步的中间推理步骤,逐步阐述解法,从而提升模型的推理能力。[1-1] 

① 让模型按照思维模板进行推理为研究者提供了观察模型为何会犯错的窗口,从而为优化和 debug 提供了更多机会。

② 让模型按照模板思考适用于数学应用题、常识推理和符号操作,也允许用在其他能用人类通过语言解决的问题,从而加强 few-shot 样例的效果,同时增强准确性和可解释性。

2、 在「思维模板」的探索和优化中,近期如 OpenAI o1、DeepSeek R1 和 Kimi 1.5 等工作证明了将长链思考(Long-CoT)形式的模板用作推理模型后训练,可以有效提高其性能上限,进而带来了更多有关这种推理策略的研究。

① 通过思维模板学会长链思考的模型不仅具有更长的符号长度,还具备「分支和回溯」即「错误验证和纠正」等复杂能力。[1-3] 

② 以 DeepSeek 团队为例,其为 R1-Zero 设计了一个简单的<think><answer>模板来引导模型在强化学习中遵循指令,确保模型在生成答案之前先进行逐步推理,更清晰地表达其思考过程,减少直接跳跃到错误答案的可能性。[1-2] 

③ 仅通过简单的模板,R1-Zero 在训练过程中自然学到了 Long-CoT(长链推理)的能力,即通过生成较长的推理步骤来逐步解决问题,取得了更优的推理效果。[1-2] 

3、当模型遵照「思维模板」学会分步骤推理后,其生成的 CoT 数据,尤其是 Long-CoT 数据能够进一步用作 SFT 和和强化学习中奖励模型或奖励机制的一部分,进一步用作推理模型的训练。[1-2] 

① 在 DeepSeek R1 的训练过程中,研究者通过收集数千条 Long-CoT 数据用作 R1 的冷启动微调,为后续强化学习训练打下基础。

② 在 R1 的推理导向的 RL 训练中,DeepSeek 团队通过语言一致性奖励机制对模型在推理时生成的 CoT 进行评估,从而确保 R1 在处理多语言混合问题时推理过程的可读性。

③ 此外,在训练生成的 checkpoint 通过拒绝采样收集高质量的的推理(Long-CoT)数据可用作新一阶段或新模型的 SFT。DeepSeek 团队用这种方法,通过 R1 训练得到了一系列蒸馏模型。

4、除了 DeepSeek 和 Kimi,近期有许多工作尝试翻新「思维模板」设计,进而带来 许多「XoT」「CoX」等 CoT 的优化或变体,分别针对不同场景的推理任务提供适配的「模板」以加强模型的推理性能、效率或节省预算。

02 提高推理效率,「思维模板」是如何工作的? 

在追求高效推理的过程中,研究者们提出了多种创新的 CoT 模板,旨在减少计算资源的浪费,同时保持模型的准确性和推理能力。这些模板通过优化推理过程、动态调整计算量等方式,实现了在不同场景下的高效推理。近期出现的 Dynasor、LCPO 和 CoD 均尝试设计独特的机制在保证推理质量的同时显著降低计算成本。类应用,另一类是代码工具类应用,包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台......

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值