DeepSeek 开源模型全解析（2024.1.1–2025.2.6）

张3蜂

已于 2025-02-06 00:53:49 修改

阅读量6.7k

点赞数 25

分类专栏： # 人工智能开源 # 神经网络文章标签：开源人工智能机器人

于 2025-02-06 00:53:30 首次发布

本文链接：https://blog.youkuaiyun.com/AngelCryToo/article/details/145464507

版权

以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息，涵盖自然语言处理、多模态与推理优化三大领域：

模型名称	版本号	参数规模	特点	公布时间	下载地址
DeepSeek-V3	1.0	总参数 671B，激活参数 37B	- 架构创新：首款融合 FP8 混合精度训练、多头潜在注意力（MLA）与 MoE 架构的模型，显存消耗降低 30% - 性能对标：在数学（MATH 评测 61.6 EM）、代码（HumanEval 65.2 Pass@1）等任务上超越 GPT-4o 与 Claude-3.5-Sonnet - 效率提升：生成速度达 60 TPS（前代的 3 倍），支持 128K 长上下文	2024-12-26	Hugging Face
DeepSeek-V3-Base	1.0	同 DeepSeek-V3	- 提供原生 FP8 权重，支持 SGLang、LMDeploy 等推理框架 - 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化	2024-12-26	Hugging Face