DeepSeek 在人工智能领域热度颇高,其不同版本各具特色。以下对其主要版本进行梳理介绍。
一、产品发布与主流定位
自 2023 年起,DeepSeek 陆续发布了 V1、V2、V3、R1、Janus - Pro 等重点产品。目前主流版本为 V3 和 R1。V3 对标 OpenAI 的 GPT - 4,是 L1 级别的聊天机器人,工程创新多,采用混合专家(MoE)架构,面向自然语言处理任务,在客服、文本摘要、内容生成等领域广泛应用。R1 对标 OpenAI - 1,属于 L2 级别的推理优化模型,专注高级推理任务,利用强化学习提升推理能力,适用于逻辑推理和问题求解场景。在 DeepSeek 官网或 APP 中,默认聊天用 V3 版本,点击 “深度思考(R1)” 则调用 R1 版本。
二、R1 相关模型及关系
R1 - zero 可视为 R1 训练的中间产物,基于 V3 基座模型,完全由强化学习驱动,无需预热阶段,且无初始人工调节。R1 训练流程分两部分:第一部分基于 V3 纯强化训练得 R1 - zero,用于生成冷启动思维链数据,再训练 V3;第二部分先通过少量合成数据微调确保初期稳定,然后以 V3 为基础强化学习,引入语言一致性奖励机制,再引入其他领域监督微调数据增强通用能力,最后通过规则和偏好奖励全面优化得到 R1。
R1 有满血版和蒸馏版。满血版 Deepseek - R1(671B)性能最优,但对服务器要求极高。蒸馏版如 DeepSeek - R1 - Distill - Qwen - 1.5B 等,基于 R1(671B 满血版)通过蒸馏优化技术,在推理速度、计算成本、部署灵活性上优势明显,能在不同计算资源和应用场景下,为各规模企业提供高性价比体验。且蒸馏后的小模型在推理能力上显著超越原始的 Qwen2.5 和 Llama 模型。
三、公开价格对比
DeepSeek 新产品每百万 token 价格显著低于性能相同的 GPT - o1,优惠期最低达 1/100,常规规格的 DS - chat 价格约为 GPT - o3 - mini 的 1/3 - 1/4,体现其 R1 训练成本较低。
四、不同版本 R1 模型的 GPU 参数需求
以 INT8 精度的大模型为例,以精度为INT8的大模型为例,这种精度,一个参数需要占用一个字节
通常使用FP32(4字节)、FP16(2字节)或INT8(1字节)
1B参数模型=10亿参数x每个参数占用的1Byte
1GB显存=1024MB=1024*1024KB=1024*1024*1024Byte
10*108/(1024*1024*1024)=0.93132≈1
结论:1B 的 INT8 参数的大模型部署需要 0.93132G 显存,近似等于 1G