DeepSeek术语笔记

最新推荐文章于 2026-01-06 23:54:47 发布

原创最新推荐文章于 2026-01-06 23:54:47 发布 · 422 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #ai

AI 专栏收录该内容

1 篇文章

订阅专栏

1）性能接近闭源模型（如GPT-4），但训练和部署成本更低

2）DeepSeek R1，专注于数理逻辑与深度推理，例如解决高等数学、信号与系统等复杂问题，并通过知识蒸馏提升推理能力

DeepSeek V3，采用混合专家架构（MoE），拥有6710亿参数，训练时激活部分参数（几十亿）平衡性能和效率。优点有多Token预测、无辅助损失负载均衡等技术，适合文学语言处理和长文本生成

4）本地部署，将模型运行在本地服务器或设备上（内网、PC），不依赖云端服务，数据全程不离开本地网络，提升安全性和响应速度，简言之就是用自己的服务器，不是用别人的服务器。例如，医疗记录、科研资料无需上传至第三方服务器，能够基于开源代码调整模型，进行定制化适配特定场景，适用于对隐私和复杂任务要求高的场景，例如高校、医院、金融机构

5）满血版，大概是指未经过蒸馏或压缩的完整模型（如DEEPSEEK671B），保留全部能力，需要高性能硬件支持，对应“残血版”（如8B/70B参数模型），通过量化技术压缩体积后，在消费级硬件运行

6）DEEPSEEK671B，混合专家MoE，将模型分为多个“专家”模块，根据任务动态调用部分专家，降低结算成本；动态量化，通过压缩模型参数（1.58-bit 量化），将体积从720GB缩小至131GB，适配消费级硬件（如 Mac Studio）

7）关于模型参数，参数是模型内部的可调节开关，可以理解为是模型在训练过程中学到的权重，或者这样理解，大脑中的神经元连接数量，越多越聪明，决定了模型如何处理输入数据并生成输出，理论上，参数越多，模型越能学习复杂的模式，同时也需要更多的计算资源和存储空间

8）关于参数大小，在模型参数中，B通常指十亿，1Billion = 1,000,000,000（十亿）,“亿”是“100 million”，1亿=0.1B；671B模型原始体积约720GB，需专业服务器运行；8B模型体积约15GB，普通电脑勉强可运行；参数翻倍，训练所需算力和数据量可能呈指数增长
AI领域通常用“B”快速区分模型大小层级，作为AI模型的“智力标尺”
小型模型：1B-10B（适合手机、嵌入式设备）
中型模型：10B-100B（适合企业级应用）
大型模型：100B以上（需超级算力，如科研、云计算）