目录
以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:
一、通用大语言模型:DeepSeek-V3 系列 137
模型名称 | 版本号 | 参数规模 | 特点 | 公布时间 | 下载地址 |
---|---|---|---|---|---|
DeepSeek-V3 | 1.0 | 总参数 671B,激活参数 37B | - 架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30% - 性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet - 效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文 |
2024-12-26 | Hugging Face |
DeepSeek-V3-Base | 1.0 | 同 DeepSeek-V3 | - 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架 - 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化 |
2024-12-26 | Hugging Face |
部署要求:
-
硬件:推荐使用 4