DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2-671B 是 DeepSeek 在 2025 年 4 月 30 日开源的新模型,以下是其详细信息:

  • 基础信息

    • 参数量 :6710 亿,是目前最大的开源可商用模型。
    • 文件格式 :采用更高效的 safetensors 文件格式,提升训练和部署效率。
    • 计算精度 :支持 BF16、FP8、F32 等多种计算精度,可根据实际需求灵活选择,实现资源的有效利用。
  • 模型架构

    • 核心架构 :基于 DeepSeek-V3 架构,采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层。
    • 注意力机制 :使用多头潜注意力(MLA)架构,通过压缩键值缓存(KV Cache),降低推理过程中的内存占用和计算开销,使模型在资源受限环境下也能高效运行。
    • 位置嵌入 :最大位置嵌入达 163840,可处理超长上下文信息,在进行数学证明时能完整理解和处理复杂上下文,不会因信息过长丢失关键细节。
  • 训练方式 :基于 Lean 4 框架进行形式化推理训练,结合强化学习与大规模合成数据,显著提升自动化证明能力。

  • 适用领域 :专为数学推理和问题解决设计,能处理从基础代数到高等数学的广泛问题,擅长自动证明定理和复杂计算,其对数学符号、公式的理解能力以及逻辑推理能力远超通用大语言模型。

  • 性能表现 :在 Math450 测试中,单轮次通过率达到 44.5%,多轮次达到 54.4%,与 Minerva 2.0 表现相当,超越 GPT-4 Turbo。

  • 开源及商用 :已在 Hugging Face 开源,可免费商用,开源地址为 https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI方案2025

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值