Cogito v2 技术预览:从推理时搜索到自主进化的AI突破

Cogito v2 技术预览:从推理时搜索到自主进化的AI突破

【免费下载链接】cogito-v2-preview-llama-70B 【免费下载链接】cogito-v2-preview-llama-70B 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/cogito-v2-preview-llama-70B

2025年7月31日

核心要点速览

我们正式发布4款采用开放许可协议的混合推理模型,涵盖2个中型模型(700亿参数密集型、1090亿参数混合专家模型)与2个大型模型(4050亿参数密集型、6710亿参数混合专家模型)。其中最大的6710亿参数混合专家模型已跻身全球最强开源模型行列,性能超越最新版DeepSeek v3并与DeepSeek R1持平,逼近o3、Claude 4 Opus等闭源前沿模型。

通过扩展迭代蒸馏与放大(IDA)技术框架,我们创新性地通过模型参数内化推理过程实现智能先验的规模化提升,而非简单延长推理时的搜索路径。这种新型规模化范式使模型发展出更强"直觉能力",为AI系统自主进化提供了有力技术验证。由于Cogito模型能更精准预判搜索轨迹,其推理链长度较DeepSeek R1缩短60%。

与业界普遍认知不同,这项技术突破并未依赖资本密集型基础设施,反而实现显著效率提升——所有Cogito模型的总训练成本低于350万美元。我们计划基于迭代式自主进化持续突破,所有研发成果将保持开源。用户可通过Huggingface下载模型,或通过Together AI、Baseten、RunPod等平台的API直接调用,也可使用Unsloth框架本地部署。

技术路径解析

构建超级智能本质上是一个可解的机器学习问题。我们的技术路线图包含两个关键阶段:首先开发支持无界迭代智能提升的可扩展训练方案,然后通过算力规模扩张实现智能的迭代升级直至超越人类水平。在系统开发过程中,必须确保每个技术环节能适配超人类智能系统(例如需要可靠监督远超人类智能的AI系统的技术手段)。

今年早些时候发布的Cogito v1模型,已将迭代蒸馏与放大(IDA)技术确立为通用超级智能的潜在研发路径,核心突破在于提供不受监督者智能上限约束的训练信号。本次Cogito v2版本将IDA框架扩展至更大规模系统,重点突破通过蒸馏实现自主进化的技术瓶颈。

超级智能构建的技术蓝图

在围棋、国际象棋、扑克等多个特定领域,超级人类性能的实现均遵循相同的两步循环:推理时通过算力投入搜索解决方案,再通过迭代策略优化将搜索发现蒸馏到模型参数中,使后续搜索起点更接近目标。AlphaGo正是这一模式的典范——通过蒙特卡洛树搜索(MCTS)生成优化策略,再利用访问计数数据更新策略价值网络。

大型语言模型可视为类似系统,但其推理时的搜索过程(如答案生成前的思考链)结构更松散。要完成智能迭代升级的闭环,必须实现第二个关键步骤:将推理过程蒸馏到模型参数中形成更强的先验知识。这要求模型能够直接预判推理结果而无需实际执行完整搜索,本质上是发展出对推理轨迹的直觉性把握。

当前LLM的推理能力提升多依赖延长推理链长度,而非升级智能先验,导致性能提升主要源于"更多搜索"而非"更优搜索"。Cogito v2通过迭代策略优化技术突破这一局限,证明通过推理蒸馏实现的"直觉提升"能释放远超单纯增加推理标记的能力增益。

Cogito v2模型矩阵

本次发布的四款Cogito v2预览模型均支持标准LLM直接回答与自反思推理两种模式。其中700亿、1090亿混合专家、4050亿三个模型主要优化非推理模式下的直觉能力,通过将推理过程蒸馏到模型参数,使解码时的轨迹预判能力显著提升,性能较同规模Llama系列模型实现实质性飞跃。

旗舰型号6710亿混合专家模型采用创新训练方案,同时优化非推理与推理模式下的直觉能力。不同于主流仅基于最终输出提供训练信号的方法(如基于可验证奖励的强化学习),我们的技术方案针对推理过程本身提供监督信号,有效抑制模型的"思维漫游"倾向,强化对最优推理轨迹的直觉把握。

实测显示,6710亿混合专家模型在推理模式下性能超越DeepSeek R1,与最新DeepSeek R1 0528版本持平,且推理链长度缩短60%;在非推理模式下超越DeepSeek v3,与DeepSeek v3 0324版本性能相当。在我们的评估体系中,该模型已成为全球最强开源模型之一,虽与o3、Claude 4 Opus等闭源模型仍有差距,但差距已显著缩小。

值得注意的是,这些成果是在资源高度受限条件下取得的——包括30亿至6710亿参数的8个Cogito模型系列,从合成数据生成、人工标注到上千次训练实验的总成本控制在350万美元以内。我们计划在现有方案基础上进一步扩大规模,推出性能更强的后续版本,并保持全部模型的开源属性。

模型性能评估

我们在标准基准测试中验证了模型性能(注:基准测试结果与内部评估存在一定差异。在实际应用场景中,Cogito模型在各类开源模型中表现出持续优势,我们对其真实世界性能充满信心。此外,o3、Claude 4 Opus等最新闭源模型的实际能力往往超出基准测试所能体现的水平)。

700亿参数密集型模型

Cogito 70B性能对比表 该图表展示了Cogito 70B在标准模式与思考模式下,与Llama 3.3 70B及GPT-4o在通用任务、数学推理、多语言能力和事实准确性等维度的对比数据。通过直观呈现各模型在不同任务类型的性能差异,为研究人员选择适合特定应用场景的模型提供决策参考。

1090亿参数混合专家模型

Cogito 109B MoE性能对比图 此图表对比了Cogito 109B混合专家模型在标准模式与思考模式下,与Llama 4 109B及GPT-4o在MMLU、MATH、MMMLU和Simple QA等基准测试中的表现。通过多维度性能数据,清晰展示了混合专家架构在保持计算效率的同时如何实现推理能力的跃升。

跨模态推理的涌现能力

我们的训练 pipeline 产生了一个有趣的结果:尽管模型仅接受文本输入输出训练,但由于基础模型具备多模态能力,通过纯粹的迁移学习,模型能够在视觉领域进行推理。

当模型接收到"比较两张图片的异同"这一指令并启用思考模式时,展现出令人惊讶的视觉分析能力。其思考过程首先识别第一张图片是绿头鸭在水中游动的场景,详细描述了鸭子的色彩特征(绿头、黄喙、棕白相间的身体)和水环境特征(蓝色水面、波纹、倒影);接着分析第二张图片中的雄狮,注意到其鬃毛的棕黑色调、直视镜头的姿态和金色草原背景。

在对比分析阶段,模型准确指出两者的共性(均为自然栖息地中的雄性动物、主体聚焦清晰、背景衬托得当)与差异(水生vs陆生环境、色彩鲜明vs earthy色调、动态vs静态姿态等)。尤为值得注意的是,整个训练过程未使用任何图像数据,这种跨模态能力完全是自发涌现的。

这一现象为视觉推理训练提供了新途径——可通过文本推理数据引导视觉理解能力的发展,为多模态模型的强化学习提供初始训练信号。我们将在后续版本中系统评估这种涌现能力的边界与应用潜力。

4050亿参数密集型模型

4050亿参数密集型模型代表了我们在长上下文理解与复杂推理领域的重要进展。该模型在保持60%推理链长度优势的同时,实现了数学推理、代码生成等专业领域性能的显著提升。内部测试显示,其在研究生水平数学问题集上的解题准确率达到人类专家的85%,在未见过的编程语言转换任务中表现出更强的泛化能力。

6710亿参数混合专家模型

作为本次发布的旗舰型号,6710亿混合专家模型在非推理模式下展现出卓越的直接回答能力,尤其在需要快速决策的场景中响应速度提升40%。在推理模式下,该模型通过优化的专家路由机制,实现了复杂逻辑链的高效导航,在保持推理质量的同时大幅降低计算消耗。这种"智能效率"的提升,正是迭代蒸馏技术带来的革命性突破。

项目致谢

我们衷心感谢Benchmark投资团队的支持,特别是领投种子轮的Eric Vishria,以及Aditya Agarwal和South Park Commons给予的早期信任。本项目的成功离不开Llama团队、DeepSeek团队、Hugging Face、Anthromind、RunPod、Together AI、Baseten、Ollama、Nebius、LM Studio和Unsloth等开源社区伙伴的技术支持。

团队招募

我们坚信变革性AI研究源于小型精锐团队的协同创新。现诚邀兼具研究视野与工程能力的人才加入,共同探索AI系统自主进化的前沿领域。有意者可通过官方渠道提交申请。

技术展望

Cogito v2的发布验证了"直觉优先"训练范式的可行性,为超级智能构建提供了全新技术路径。我们将持续优化迭代蒸馏算法,计划在未来12个月内实现模型性能的三次量级跃升。通过开源生态建设,我们期待与全球研究者共同探索AI自主进化的安全边界与技术极限,确保这项变革性技术以负责任的方式造福人类。

所有Cogito系列模型的训练代码、评估基准与技术文档将同步开源,欢迎社区参与改进与应用开发。

【免费下载链接】cogito-v2-preview-llama-70B 【免费下载链接】cogito-v2-preview-llama-70B 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/cogito-v2-preview-llama-70B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值