2025 年 4 月 30 日,DeepSeek 开源了新模型 DeepSeek-Prover-V2-671B,该模型聚焦数学定理证明任务,基于混合专家架构,使用 Lean 4 框架进行形式化推理训练,参数规模达 6710 亿,结合强化学习与大规模合成数据,显著提升了自动化证明能力,且已在 Hugging Face 上线,支持本地部署与商业用途。
此外,据 4 月 27 日晚消息,DeepSeek 即将发布的下一代 AI 大模型 DeepSeek-R2 也有诸多看点。以下是对 R2 模型的爆料信息及 DeepSeek 近期的其他相关消息:
DeepSeek-R2 模型
-
参数规模与架构:采用混合专家模型结合更智能的门控网络层,总参数量预计达 1.2 万亿,较 R1 提升约 1 倍,与 ChatGPT 的 GPT-4 Turbo 以及谷歌的 Gemini 2.0 Pro 相当。
-
技术突破 :
- 架构创新:采用自主研制的 Hybrid MoE 3.0 架构,实现 1.2 万亿动态激活参数,实际计算消耗仅 780 亿参数,经阿里云实测验证,在处理长文本推理任务时,单位 token 成本较 GPT-4 Turbo 下降 97.3%。
- 性能提升:在数学定理证明上有质的飞跃,其单轮推理能力媲美谷歌 Gemini Pro 2.0,预计在官方 benchmark 上超越 Gemini 2.0 12% 左右,接近 GPT-4 Turbo 的能力。
- 多模态能力增强:据称多模态性能媲美国际竞品,有望在图像、音频、视频等多模态内容的理解和生成上取得突破,弥补 DeepSeek 此前的短板。
-
发布时间:据预测,DeepSeek-R2 发布时间可能在 2025 年 5 月 1 日 - 5 月

最低0.47元/天 解锁文章
387

被折叠的 条评论
为什么被折叠?



