DeepSeek术语笔记

1)性能接近闭源模型(如GPT-4),但训练和部署成本更低

2)DeepSeek R1,专注于数理逻辑与深度推理,例如解决高等数学、信号与系统等复杂问题,并通过知识蒸馏提升推理能力

  1. DeepSeek V3,采用混合专家架构(MoE),拥有6710亿参数,训练时激活部分参数(几十亿)平衡性能和效率。优点有多Token预测、无辅助损失负载均衡等技术,适合文学语言处理和长文本生成

4)本地部署,将模型运行在本地服务器或设备上(内网、PC),不依赖云端服务,数据全程不离开本地网络,提升安全性和响应速度,简言之就是用自己的服务器,不是用别人的服务器。例如,医疗记录、科研资料无需上传至第三方服务器,能够基于开源代码调整模型,进行定制化适配特定场景,适用于对隐私和复杂任务要求高的场景,例如高校、医院、金融机构

5)满血版,大概是指未经过蒸馏或压缩的完整模型(如DEEPSEEK671B),保留全部能力,需要高性能硬件支持,对应“残血版”(如8B/70B参数模型),通过量化技术压缩体积后,在消费级硬件运行

6)DEEPSEEK671B,混合专家MoE,将模型分为多个“专家”模块,根据任务动态调用部分专家,降低结算成本;动态量化,通过压缩模型参数(1.58-bit 量化),将体积从720GB缩小至131GB,适配消费级硬件(如 Mac Studio)

7)关于模型参数,参数是模型内部的可调节开关,可以理解为是模型在训练过程中学到的权重,或者这样理解,大脑中的神经元连接数量,越多越聪明,决定了模型如何处理输入数据并生成输出,理论上,参数越多,模型越能学习复杂的模式,同时也需要更多的计算资源和存储空间

8)关于参数大小,在模型参数中,B通常指十亿,1Billion = 1,000,000,000(十亿),“亿”是“100 million”,1亿=0.1B;671B模型原始体积约720GB,需专业服务器运行;8B模型体积约15GB,普通电脑勉强可运行;参数翻倍,训练所需算力和数据量可能呈指数增长
AI领域通常用“B”快速区分模型大小层级,作为AI模型的“智力标尺”
小型模型:1B-10B(适合手机、嵌入式设备)
中型模型:10B-100B(适合企业级应用)
大型模型:100B以上(需超级算力,如科研、云计算)

参数模型典型模型内存需求适用硬件
8BDeepseek-8B~15GB高端游戏计算机
70BLLaMA-70B~140GB多卡服务器(如8×A100)
671BDeepSeek-671B~720GB超算集群/云计算

9)关于量化,量化是降低参数的精度来减少模型大小和加速推理的技术,例如,可以这样理解,原先用32位浮点数存储的参数,可以改为16位等等;通过量化,可压缩体积、降低算力需求,速度反而可能会快

10)核心:模型能力 ≈ 参数规模 × 数据质量 × 算法设计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dotdotyy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值