发布日期:2025年7月31日
核心亮点
我们正式发布4款采用开放许可协议的混合推理模型,涵盖2个中型模型(700亿参数密集型、1090亿参数混合专家模型)与2个大型模型(4050亿参数密集型、6710亿参数混合专家模型)。其中最大的6710亿参数混合专家模型已跻身全球最强开源模型行列,性能全面对标甚至超越DeepSeek v3及DeepSeek R1最新版本,并逼近o3、Claude 4 Opus等闭源前沿模型。
本研究通过扩展迭代蒸馏与放大(IDA)技术框架,重点强化模型的"智能先验"——即通过迭代策略优化使模型内化推理过程,而非单纯延长推理时的搜索路径。这种创新缩放范式让模型发展出更强"直觉",为AI系统自我提升提供了有力技术验证。得益于对推理轨迹的精准把握,Cogito模型推理链长度较DeepSeek R1缩短60%,且颠覆了"前沿技术必须依赖高资本投入"的认知——全部模型训练总成本控制在350万美元以内,展现出极高的计算效率。未来我们将持续推进迭代自我提升技术的优化,目标构建超级智能系统,所有成果均将开源发布。
技术路径解析
构建超级智能本质上是一个可解的机器学习问题。我们的技术路线图分为两个关键阶段:首先开发支持无界迭代智能提升的可扩展训练方案,继而通过计算资源扩展实现智能水平的持续迭代优化,最终突破人类性能边界。在此过程中,必须确保技术栈具备支持超人类智能系统的能力,例如开发可可靠监督远超人类智能水平AI系统的技术方法。
今年早些时候发布的Cogito v1系列模型,已验证迭代蒸馏与放大(IDA)技术作为通用超级智能研发路径的可行性,其核心突破在于构建不受监督者智能上限约束的训练信号。本次Cogito v2版本进一步将IDA框架扩展至更大规模系统,重点突破自我提升的关键环节——通过蒸馏实现推理能力的参数化沉淀。
超级智能构建的技术配方
在围棋、国际象棋、扑克等多个专业领域,超人类性能的实现均遵循相同的两步循环:推理时搜索(消耗计算资源寻找解决方案)与迭代策略优化(将搜索发现蒸馏为模型参数,使后续搜索起点更接近最优解)。以AlphaGo为例,其通过蒙特卡洛树搜索(MCTS)生成优化策略,再将访问计数信息反哺至策略价值网络的训练过程,正是这一范式的经典实践。
大型语言模型可视为该范式的非结构化延伸,其推理过程表现为答案生成前的思维链搜索。但要形成完整的智能提升闭环,必须实现第二步关键转化:将推理过程蒸馏为模型参数,构建更强的推理先验。这要求模型能够直接预测推理结果并预判自身推理轨迹,而非依赖冗长的显式推理步骤。
当前主流LLM优化路径存在明显局限:推理能力提升主要依赖延长思维链长度或引入回溯等启发式策略,本质上仍是搜索过程的优化;而非推理模式的改进则缺乏对推理本质的参数化吸收。这种局限使得智能提升陷入"搜索依赖"困境,难以实现核心能力的质变。Cogito v2通过突破迭代策略优化技术瓶颈,为解决这一难题提供了全新思路——我们坚信,在迭代策略优化方向上的持续突破,将释放出远超单纯增加推理 token 所能实现的能力跃升。
Cogito v2 模型矩阵
本次发布的Cogito v2预览版包含四个模型变体,均支持标准LLM直接回答与推理前自我反思两种工作模式。核心技术目标是实现推理过程的参数化蒸馏,完成从推理时搜索到直觉式推理的范式转换。
其中700亿、1090亿混合专家、4050亿三个模型采用相同训练策略:重点强化非推理模式下的直觉能力,技术上通过将推理过程蒸馏回模型原始参数实现。性能测试表明,这些模型较同规模Llama基模型实现显著提升,在解码过程中展现出对最优推理轨迹的精准把握,无需依赖回溯等启发式策略即可达成强性能表现。在各自参数规模级别上,这些模型已接近前沿智能水平,其中4050亿参数密集型模型性能尤为突出。
6710亿参数混合专家模型采用创新训练方案,同步优化非推理模式与推理模式下的直觉能力。不同于主流推理模型仅基于最终输出提供训练信号(如基于可验证奖励的强化学习),该模型在蒸馏过程中同时优化思维过程本身,有效抑制"推理漫游"现象,强化对最优推理轨迹的直觉把握。实测数据显示:在推理模式下,该模型性能超越DeepSeek R1,与DeepSeek R1 0528版本持平,且推理链长度缩短60%;在非推理模式下,性能超越DeepSeek v3,与DeepSeek v3 0324版本相当。
值得强调的是,这些模型目前主要作为迭代自我提升技术的可行性验证,尚未进行大规模性能优化——全部8个Cogito系列模型(从30亿到6710亿参数)的训练总成本(含数据生成与实验开销)控制在350万美元以内。我们计划在现有技术框架基础上进一步扩展,推出性能更强的后续版本,所有模型将保持开源发布。
性能评估报告
我们在标准基准测试集上对模型性能进行了系统性评估(注:基准测试结果与内部评估存在一定差异。在实际应用场景中,Cogito模型在各类开源模型中表现出稳定优势;同时需注意o3、Claude 4 Opus等最新闭源模型的实际性能通常超出基准测试所能反映的水平)。
1090亿混合专家模型性能解析
该图表清晰展示了Cogito 1090亿混合专家模型在非推理与推理两种模式下,与Llama 4 109B、GPT-4o等竞品在MMLU、GSM8K等关键基准测试中的性能对比。通过百分比数据与颜色标注,直观呈现了Cogito模型在不同任务类型上的相对优势,为技术选型提供了量化参考。
跨模态推理能力的涌现
训练流程的一个意外发现是:尽管Cogito模型仅接受文本数据训练,但其基础模型的多模态特性使视觉领域推理能力通过迁移学习自然涌现。以下是启用"enable_thinking"参数后,模型对两张图像进行对比分析的实例:
模型输入:比较以下两张图像,分析其异同点。
思考过程: 我需要仔细观察这两张图像。第一张是绿头鸭在水中游动的场景,鸭子具有绿色头部、黄色喙部和棕白相间的身体,周围是带波纹的蓝色水域,水面倒影形成对称构图。第二张是雄狮坐在枯黄草丛中的画面,雄狮拥有棕黑色鬃毛,直视镜头,背景为绵延的金色草地。
相似点方面:两者均为自然栖息地中的雄性动物,都是自然摄影的高质量作品,主体突出且背景互补,拍摄光线均为自然光,动物均处于平静状态。差异点主要体现在:环境(水生vs陆生)、体型(小型vs大型)、色彩(鲜艳vs土色调)、动态(游动vs静止)、构图(对称倒影vs开放草地)、情绪(宁静vs威严)以及纹理(水波纹vs草质感)。
响应输出: 这两张自然摄影作品的对比分析如下:
相似点:
- 均以雄性动物为拍摄主体,展现其自然行为状态
- 采用主体突出的构图方式,背景起到烘托作用
- 自然光线条件下拍摄,保留真实质感
- 动物均处于非应激的平静状态
差异点:
- 生存环境:绿头鸭处于水生生态系统(蓝色水域),雄狮处于陆生草原环境(金色草丛)
- 体型特征:鸭类体型小巧紧凑,猫科动物体型庞大健壮
- 色彩体系:鸭类呈现绿-黄-棕的多彩组合,雄狮则以棕-黑-金的大地色系为主
- 动态表现:鸭子呈现游泳的动态姿态,雄狮保持静止观察的静态姿态
- 视觉元素:水面倒影形成上下对称,草原环境形成纵深透视
- 情感传达:前者营造宁静祥和的氛围,后者展现力量与威严感
- 质感表现:水的流动性与草的纤维感形成鲜明材质对比
值得注意的是,尽管训练数据中未包含任何图像样本,这种跨模态推理能力仍能自然涌现。从研究角度看,此类涌现特性为视觉推理训练数据生成提供了全新思路,可作为视觉推理强化学习的起点(目前尚未通过视觉基准测试进行系统评估)。
模型获取与部署选项
所有Cogito v2模型已在Huggingface开放下载,开发者可通过Together AI、Baseten或RunPod平台的API直接调用,或使用Unsloth框架在本地环境部署运行。我们致力于降低前沿AI技术的获取门槛,推动开源AI生态的创新发展。
致谢与团队招募
本研究得到Benchmark投资公司的大力支持,特别感谢Eric Vishria主导的种子轮投资,以及Aditya Agarwal与South Park Commons的早期信任。技术实现过程中,我们受益于Llama团队、DeepSeek团队、Hugging Face、Anthromind、RunPod、Together AI、Baseten、Ollama、Nebius、LM Studio和Unsloth等社区项目的技术积累,在此表示诚挚感谢。
我们坚信,变革性AI研究源于小型精锐团队的协同创新。现诚邀兼具研究与工程能力的人才加入,共同探索大规模AI系统的前沿领域。招聘详情请访问官方招聘页面。
技术注释
- 这种参数化蒸馏不同于常规的教师模型蒸馏,关键区别在于:单纯蒸馏最终答案而不保留思维链信息是无效的,必须实现推理过程的完整内化。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



