Long-CoT后,推理模型的「思维模板」有哪些新玩法?

作者 | Pro会员通讯 编辑 | 机器之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

基于思维链(Chain-of-Thought)的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长链思维」的「模板」怎么魔改更高效?哪些「模板」能带来更高的推理能力上限?

目录

01. 推理模型后训练效果好,「思维模板」少不了?

「思维模板」可用在哪些后训练环节?近期有哪些新的模板设计?...

02. 提高推理效率,「思维模板」是如何工作的?

长链思维的模板怎么改更高效?...

03. 哪些「思维模板」能提高模型的推理能力上限?

CoT 怎么设计能让LLM的推理效果更好?把代码改成CoT会更强吗?

04. 多模态推理模型的「思维模板」应如何构建?

多模态推理有哪些思维模板?现有的模板哪些更强?

01 推理模型后训练效果好,「思维模板」少不了?

在 LLMs 中的「推理」仍然是一个有争议的话题,现有的许多模型可以产生看起来逻辑连贯的回应,但它们的推理方式与人类的逻辑推理截然不同。而近期许多推理模型在 test-time Scaling 中取得突破,通过让模型产生更长的 CoT 来实现更强的推理能力,也引发了许多对该技术的深入研究。CoT 如同推理模型提供了一套套「思维模板」,在后训练的多个环节里扮演着重要角色。

1、在推理模型的后训练中,以思维链(CoT)为代表的推理策略的核心在于类似提供一套「思维模板(Template)」,让模型将问题分解为逐步的中间推理步骤,逐步阐述解法,从而提升模型的推理能力。[1-1] 

① 让模型按照思维模板进行推理为研究者提供了观察模型为何会犯错的窗口,从而为优化和 debug 提供了更多机会。

② 让模型按照模板思考适用于数学应用题、常识推理和符号操作,也允许用在其他能用人类通过语言解决的问题,从而加强 few-shot 样例的效果,同时增强准确性和可解释性。

2、 在「思维模板」的探索和优化中,近期如 OpenAI o1、DeepSeek R1 和 Kimi 1.5 等工作证明了将长链思考(Long-CoT)形式的模板用作推理模型后训练,可以有效提高其性能上限,进而带来了更多有关这种推理策略的研究。

① 通过思维模板学会长链思考的模型不仅具有更长的符号长度,还具备「分支和回溯」即「错误验证和纠正」等复杂能力。[1-3] 

② 以 DeepSeek 团队为例,其为 R1-Zero 设计了一个简单的<think><answer>模板来引导模型在强化学习中遵循指令,确保模型在生成答案之前先进行逐步推理,更清晰地表达其思考过程,减少直接跳跃到错误答案的可能性。[1-2] 

③ 仅通过简单的模板,R1-Zero 在训练过程中自然学到了 Long-CoT(长链推理)的能力,即通过生成较长的推理步骤来逐步解决问题,取得了更优的推理效果。[1-2] 

3、当模型遵照「思维模板」学会分步骤推理后,其生成的 CoT 数据,尤其是 Long-CoT 数据能够进一步用作 SFT 和和强化学习中奖励模型或奖励机制的一部分,进一步用作推理模型的训练。[1-2] 

① 在 DeepSeek R1 的训练过程中,研究者通过收集数千条 Long-CoT 数据用作 R1 的冷启动微调,为后续强化学习训练打下基础。

② 在 R1 的推理导向的 RL 训练中,DeepSeek 团队通过语言一致性奖励机制对模型在推理时生成的 CoT 进行评估,从而确保 R1 在处理多语言混合问题时推理过程的可读性。

③ 此外,在训练生成的 checkpoint 通过拒绝采样收集高质量的的推理(Long-CoT)数据可用作新一阶段或新模型的 SFT。DeepSeek 团队用这种方法,通过 R1 训练得到了一系列蒸馏模型。

4、除了 DeepSeek 和 Kimi,近期有许多工作尝试翻新「思维模板」设计,进而带来 许多「XoT」「CoX」等 CoT 的优化或变体,分别针对不同场景的推理任务提供适配的「模板」以加强模型的推理性能、效率或节省预算。

02 提高推理效率,「思维模板」是如何工作的? 

在追求高效推理的过程中,研究者们提出了多种创新的 CoT 模板,旨在减少计算资源的浪费,同时保持模型的准确性和推理能力。这些模板通过优化推理过程、动态调整计算量等方式,实现了在不同场景下的高效推理。近期出现的 Dynasor、LCPO 和 CoD 均尝试设计独特的机制在保证推理质量的同时显著降低计算成本。类应用,另一类是代码工具类应用,包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台......

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

内容概要:本文档围绕六自由度机械臂的ANN人工神经网络设计展开,涵盖正向与逆向运动学求解、正向动力学控制,并采用拉格朗日-欧拉法推导逆向动力学方程,所有内容均通过Matlab代码实现。同时结合RRT路径规划与B样条优化技术,提升机械臂运动轨迹的合理性与平滑性。文中还涉及多种先进算法与仿真技术的应用,如状态估计中的UKF、AUKF、EKF等滤波方法,以及PINN、INN、CNN-LSTM等神经网络模型在工程问题中的建模与求解,展示了Matlab在机器人控制、智能算法与系统仿真中的强大能力。; 适合人群:具备一定Ma六自由度机械臂ANN人工神经网络设计:正向逆向运动学求解、正向动力学控制、拉格朗日-欧拉法推导逆向动力学方程(Matlab代码实现)tlab编程基础,从事机器人控制、自动化、智能制造、人工智能等相关领域的科研人员及研究生;熟悉运动学、动力学建模或对神经网络在控制系统中应用感兴趣的工程技术人员。; 使用场景及目标:①实现六自由度机械臂的精确运动学与动力学建模;②利用人工神经网络解决传统解析方法难以处理的非线性控制问题;③结合路径规划与轨迹优化提升机械臂作业效率;④掌握基于Matlab的状态估计、数据融合与智能算法仿真方法; 阅读建议:建议结合提供的Matlab代码进行实践操作,重点理解运动学建模与神经网络控制的设计流程,关注算法实现细节与仿真结果分析,同时参考文中提及的多种优化与估计方法拓展研究思路。
### Long-CoT框架解决长推理挑战的技术方法 Long-CoT(Chain-of-Thought)框架通过扩展思维的生成和优化策略,显著提升了大型语言模型在复杂推理任务中的表现。其核心技术方法主要包括以下几个方面: #### 1. **保持完整推理结构的蒸馏微调** Long-CoT 框架强调对“完整、多步的思考过程”进行建模,而不是简单地将问题答案映射到单一输出。这种学习方式要求模型模仿人类的深度推理过程,包括反思、回溯和拆分等能力[^2]。为了实现这一点,采用了两种主要的微调策略:全参数微调(SFT)和低秩适应(LoRA)。其中 SFT 能够更全部权重,虽然训练成本较高,但能更直接地学习完整的推理路径;而 LoRA 则通过仅调整少量参数,在降低计算资源消耗的同时仍然能够捕捉到复杂的长结构。 ```python # 示例:基于完整推理的目标函数设计 def long_cot_loss(model_output, target_chain): # 计算逐词预测损失,目标是整个推理 loss = cross_entropy_loss(model_output, target_chain) return loss ``` #### 2. **强化长结构的学习目标** 与传统 CoT 不同的是,Long-CoT 特别注重“高难度长”的生成与学习。研究表明,如果只依赖简单的一步答案题,模型难以掌握深层次的推理技能,如反思和回溯[^2]。因此,该框架鼓励使用具有多步骤逻辑的问题作为训练数据,以确保模型能够在多个层级上进行推理,并逐步构建出连贯且深入的解决方案。 #### 3. **结合混合专家架构与注意力机制** 某些实现 Long-CoT 的模型(如 DeepSeek-V3)采用混合专家(MoE)架构以及多头潜在注意力(MLA)技术来增强推理能力和生成效率。这些架构上的改进有助于模型处理更长的上下文信息,从而支持更复杂的推理路径生成[^3]。 #### 4. **利用强化学习提升自主验证能力** 在一些高级实现中,如 DeepSeek-R1-Zero,大规模使用强化学习技术替代传统的监督微调环节。这种方法不仅减少了对人工标注样本的依赖,还使得模型能够在没有明确标签的情况下自发发展出自我验证和反思的能力。这种机制对于长推理尤为重要,因为它允许模型在生成过程中动态评估和修正自身的推理路径。 #### 5. **长推理的结构化输出优化** 为了解决长推理中可能出现的“过思考”现象,即生成过多冗余或无关步骤的问题,Long-CoT 框架特别重视结构化输出的设计。通过让模型按照用户指定的格式(如列表、表格或 JSON)输出结果,可以有效引导其生成清晰、有条理的推理过程。 综上所述,Long-CoT 框架通过一系列技术创解决了长推理中的关键挑战,包括但不限于保持推理路径的一致性、提高模型的泛化能力以及增强系统的可解释性和透明度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值