谷歌系创业公司Deep Cogito开源混合架构大模型,Cogito v1系列性能超越同量级DeepSeek与Qwen

由谷歌资深工程师与DeepMind前产品经理联合创办的美国AI初创企业Deep Cogito,于近日正式公开其研发成果——首个开源大型语言模型系列Cogito v1。这家此前处于隐匿状态的公司,凭借创新的混合推理架构和高效训练方法,迅速在竞争激烈的大模型赛道崭露头角。

【免费下载链接】cogito-v2-preview-llama-109B-MoE 【免费下载链接】cogito-v2-preview-llama-109B-MoE 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/cogito-v2-preview-llama-109B-MoE

Cogito v1系列最引人注目的技术突破在于其独特的"双模式"运行机制。与Anthropic Claude 3.7及传闻中的GPT-5类似,该模型集成了标准响应组件与深度推理组件。这种设计使模型能根据任务复杂度智能切换工作模式:面对常识问答等简单任务时,以标准模式快速响应;处理数学推理、逻辑分析等复杂问题时,自动激活推理模式,通过调用更多计算资源进行多步骤思考与自我验证,从而显著提升答案质量。

图片展示了Deep Cogito公司的品牌标识及宣传语,宣传语为‘Introducing a path to general superintelligence’,表明该公司致力于实现通用超级智能。 如上图所示,图片中央展示了Deep Cogito的品牌标识,下方配有"Introducing a path to general superintelligence"的核心主张。这一视觉元素直观传递了公司以技术创新突破智能边界的愿景,为理解其技术路线提供了品牌语境。

此次发布的Cogito v1系列基于Meta Llama与阿里巴巴Qwen预训练模型进行二次开发,涵盖30亿至700亿参数的五种规格(3B/8B/14B/32B/70B),所有模型已通过Hugging Face平台开源。其技术核心在于创新的"迭代蒸馏与放大"(IDA)训练框架,这一方法被公司视为突破当前大模型性能瓶颈的关键。

传统大模型训练普遍受限于监督者能力天花板——无论是人类标注团队还是教师模型的认知边界,都会成为被训练模型的能力上限。Deep Cogito提出的IDA框架灵感源自DeepMind AlphaGo的自对弈机制,通过"放大-蒸馏"的循环过程实现模型自主进化。在"放大"阶段,模型通过延长思考链或调用外部工具生成超越当前能力的优质推理过程;"蒸馏"阶段则将这些高阶解决方案提炼为参数知识内化到模型中。这种自我迭代机制使模型能力边界不再受制于初始监督者水平,转而由计算资源投入与算法效率决定。

该方法展现出惊人的资源效率:一个小型研发团队仅用75天就完成了全系列模型开发,显著低于传统RLHF(基于人类反馈的强化学习)或模型蒸馏所需的时间成本。这种高效开发模式为中小团队挑战大模型领域巨头提供了新的可能性。

在性能验证方面,Deep Cogito公布的基准测试数据显示,各规格Cogito模型在标准模式下已全面超越同量级开源模型。30亿参数版本在MMLU测试中取得65.4%的成绩,较Llama 3.2 3B提升6.7个百分点;Hellaswag测试得分81.1%,领先幅度达18.8个百分点。启动推理模式后性能进一步跃升,MMLU成绩突破72.6%,ARC测试达到84.2%。

80亿参数模型表现更为亮眼,标准模式下MMLU得分80.5%,超越Llama 3.1 8B达12.8个百分点;MMLU-Pro测试领先11个百分点,ARC测试得分88.7%。切换至推理模式后,MMLU提升至83.1%,ARC达到92.0%,除MATH基准(60.2% vs 80.6%)外,全面超越DeepSeek R1 Distill 8B。

图片为对比表格,展示Cogito 8B模型在非推理和推理模式下,于MMLU、MATH等基准测试中与Llama 3.1 8B、Deepseek R1 Distill 8B等模型的性能差异,以百分比数据呈现。 该对比表格清晰呈现了Cogito 8B在不同运行模式下的性能变化,以及与同类模型的分项对比数据。通过具体数值差异,直观展示了混合架构在平衡效率与性能方面的优势,为开发者选择合适模型规格提供了量化参考。

中型模型方面,14B和32B版本较Qwen2.5同规格模型综合性能提升2-3个百分点,其中32B推理模式下MMLU达90.2%,MATH测试突破91.8%。700亿参数旗舰版在标准模式下MMLU得分91.7%,超越Llama 3.3 70B 6.4个百分点,综合基准测试得分(54.5%)甚至超过Llama 4 Scout 109B(53.3%)。推理模式下,该模型在通用及多语言任务中表现更强,MMLU维持91.0%,MGSM(多语言数学问题)测试达到92.7%。

值得注意的是,Cogito系列在工具调用能力上展现出原生优势。3B版本已支持简单、并行、多重及并行多重四种工具调用类型,简单任务准确率达92.8%,多重调用超过91%;8B版本全类型工具调用准确率均超89%,大幅领先Llama 3.1 8B(35%-54%)。这种原生能力为模型在实际应用场景中的落地提供了便利。

公司背景调查显示,Deep Cogito于2024年6月在加州注册,总部位于旧金山。核心创始团队均来自谷歌系:CEO Drishan Arora曾领导谷歌生成式搜索的大模型建模工作;联合创始人Dhruv Malhotra曾任DeepMind产品经理,负责生成式搜索技术研发。公司名称"Deep Cogito"(深度我思)既暗示与DeepMind的渊源,又彰显其专注认知智能的技术定位。

目前公司已获得South Park Commons等风投机构支持,其终极目标是构建"通用超级智能"——在多数领域超越人类水平,并能发现全新认知维度的AI系统。团队坚信IDA框架是实现这一目标的关键路径,因其有望打破对人类智慧的依赖,实现可持续的自主进化。

技术路线图显示,Deep Cogito计划在未来数月内推出109B、400B和671B参数的混合专家模型(MoE),同时持续优化现有模型检查点。研发团队将重点探索IDA与其他后训练优化方法的融合,进一步提升模型自我改进效率。

这场由谷歌系资深成员发起的技术突围,不仅通过创新架构和训练方法刷新了开源大模型的性能边界,更提出了一种摆脱人类监督依赖的AI进化新范式。随着混合专家模型的即将问世,以及IDA框架的持续迭代,Deep Cogito正逐步将"通用超级智能"的科幻愿景转化为可实现的技术路径,这无疑将深刻影响整个AI行业的发展轨迹。对于开发者社区而言,Cogito系列的开源特性也为研究人员提供了探索自主进化AI的宝贵实验平台,有望加速大模型技术向更高效、更智能的方向演进。

【免费下载链接】cogito-v2-preview-llama-109B-MoE 【免费下载链接】cogito-v2-preview-llama-109B-MoE 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/cogito-v2-preview-llama-109B-MoE

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值