DeepSeek 和 Qwen 模型快速部署指南

最新推荐文章于 2025-05-27 23:06:26 发布

34号树洞

最新推荐文章于 2025-05-27 23:06:26 发布

阅读量2.2k

点赞数 46

CC 4.0 BY-SA版权

文章标签：深度学习运维模型部署 DeepSeek Qwen 大型语言模型 LLM 人工智能 AI

本文链接：https://blog.youkuaiyun.com/moton2017/article/details/145683823

导读：DeepSeek-V3 & DeepSeek-R1 模型对比

特性	DeepSeek-V3	DeepSeek-R1
模型大小	总参数量6710亿(671B), MoE架构,每个token激活370亿参数	总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构
训练方法	包含预训练、监督微调(SFT)和强化学习(RL),使用14.8兆高品质文本进行预训练	引入多阶段训练流程,冷启动微调后进行推理导向的RL训练,最后进行SFT和再次RL训练
性能表现	在多项基准测试(MMLU-Pro、GPQA-Diamond、MATH 500)中达到或超越其他开源模型	在推理任务上性能卓越,与OpenAI-o1-1217表现相当,特别在数学、代码和推理任务中表现优异
应用场景	适用于广泛的NLP任务,如文本生成、阅读理解、机器翻译等	专注于深度推理任务,如数学问题求解、代码生成和复杂问题的分析
创新点	采用MoE架构提升效率,结合大规模数据的预训练和多阶段优化流程	引入GRPO方法进行RL训练,改进推理能力,特别设计针对未微调模型的性能提升

模型特性详细解读：

DeepSeek-V3

DeepSeek-R1

DeepSeek 模型主要分为三种类型：满血版、量化版和蒸馏版。

满血版 DeepSeek-R1: 671B (混合专家模型, MoE)

解读:
- 满血版 指的是完整参数规模的模型，计算量和性能都是最高的。
- MoE (Mixture of Experts) 混合专家模型是一种特殊的网络结构，可以大幅提升模型容量，同时降低计算成本。
- BF16 是一种半精度浮点数格式，相比FP32可以减少一半的显存占用，同时保持较高的计算精度。
- 350GB 显存/内存 是一个非常高的要求，说明满血版DeepSeek模型需要顶级的GPU服务器才能运行。
- 专业服务器部署 说明这类模型主要面向企业级用户，需要专业的运维和优化。
量化版 DeepSeek-R1: 671B