伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

大语言模型(LLM)的推理能力再迎重大突破!来自伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI(Continuous Chain-of-Thought via Self-Distillation),可以让LLM在不显式生成推理步骤的情况下,依然具备强大的逻辑推理能力。

大模型推理的难题:显式 vs. 隐式 CoT

Chain-of-Thought(CoT)提示工程已经被证明是提升LLM逻辑推理能力的有效方法,它能让模型按步骤拆解问题,进行层层推理。然而,CoT主要依赖自然语言来表达推理过程,而研究表明,人类的数学推理其实并不完全依赖语言,这意味着可能存在更高效的推理方式。

目前,LLM在推理时主要面临以下挑战:

  • 显式 CoT:需要模型生成详细的推理过程,但会显著增加计算成本,降低推理效率。
  • 隐式 CoT:尝试让模型在内部进行推理,不生成推理token,但过往的隐式方法表现远不如显式CoT。

一些方法(如Coconut)尝试用课程学习(Curriculum Learning)来逐步引导模型内化推理步骤,但仍然存在误差传播遗忘问题,导致效果不理想。因此,如何在保证推理能力的同时,减少计算开销,成为了研究的关键。

CODI:用自蒸馏让AI“内化”推理过程

为了解决这个问题,研究团队提出了CODI框架,它的核心思想是:

不让模型显式输出推理步骤,而是将推理能力“蒸馏”进一个连续的潜在空间(latent space),从而提升推理效率。

CODI的关键机制:

  1. 自蒸馏(Self-Distillation)
    • 一个模型同时充当教师(Teacher)和学生(Student),让自己向自己“传授”推理能力。
    • 教师模型采用传统显式CoT方式进行推理,生成完整的推理步骤。
    • 学生模型则学习在隐藏层中压缩推理信息,而无需在输出中显式生成推理步骤。
  2. 连续CoT推理(Continuous CoT Reasoning)
    • 通过L1距离损失函数,确保教师和学生模型的隐藏状态保持一致,让推理能力在神经网络内部传承。
    • 在隐藏状态中选择一个特殊token,专门存储最关键的推理信息,使得模型可以在无需显式CoT的情况下,仍然执行复杂的逻辑推理。

相比于传统方法,CODI无需多阶段训练,通过单步蒸馏就能让模型获得推理能力,避免了课程学习方法中的信息遗失和遗忘问题。

实验结果:推理更强,速度更快

研究团队在数学推理任务上测试了CODI,结果令人惊喜:

  • 性能上,CODI首次让隐式CoT达到显式CoT的推理水平!
    • GSM8k数学数据集上,CODI的推理准确率比Coconut高28.2%
    • 7B参数的GPT-2模型,CODI的推理准确率达43.7%,相比Coconut的**34.1%**提升显著。
    • 在更大规模的LLaMA3.2-1B模型上,CODI推理准确率达到55.6%,展现出良好的可扩展性。
  • 计算效率上,CODI让推理速度大幅提升!
    • 处理推理步骤的速度比传统CoT快2.7倍
    • 在较长推理任务上,CODI比显式CoT快5.9倍

此外,CODI还能在跨领域任务(如SVAMP和MultiArith数据集)上取得更好的泛化能力,说明它不仅能在数学推理中生效,还能扩展到更广泛的逻辑推理任务。

未来展望:CODI如何改变AI推理?

CODI的出现,标志着隐式CoT推理终于追上了显式CoT,同时也让推理更加高效。相比传统方法,它的优势在于:

  • 计算成本更低:不需要生成冗长的推理步骤,大幅减少计算资源占用。
  • 推理能力更强:首次让隐式CoT达到显式CoT的推理水平。
  • 可扩展性更强:适用于不同规模的LLM,并能泛化到多种推理任务。

未来,CODI可能会被应用到更复杂的多模态推理任务,比如:

  • 代码推理:帮助AI更高效地理解和生成代码逻辑。
  • 科学研究:辅助AI进行复杂科学计算和逻辑分析。
  • 自动驾驶 & 机器人:让AI更快速地做出推理决策,提高安全性和效率。

总结
CODI通过自蒸馏+隐式推理,成功让大模型推理速度更快、计算更高效,并首次让隐式CoT达到显式CoT的推理能力。这一突破,不仅让LLM在数学推理任务上表现更优,也为未来的AI推理技术提供了新的方向。未来,CODI有望在更复杂的推理场景中发挥巨大作用,让AI真正迈向高效、精准、可扩展的推理时代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值