1)性能接近闭源模型(如GPT-4),但训练和部署成本更低
2)DeepSeek R1,专注于数理逻辑与深度推理,例如解决高等数学、信号与系统等复杂问题,并通过知识蒸馏提升推理能力
- DeepSeek V3,采用混合专家架构(MoE),拥有6710亿参数,训练时激活部分参数(几十亿)平衡性能和效率。优点有多Token预测、无辅助损失负载均衡等技术,适合文学语言处理和长文本生成
4)本地部署,将模型运行在本地服务器或设备上(内网、PC),不依赖云端服务,数据全程不离开本地网络,提升安全性和响应速度,简言之就是用自己的服务器,不是用别人的服务器。例如,医疗记录、科研资料无需上传至第三方服务器,能够基于开源代码调整模型,进行定制化适配特定场景,适用于对隐私和复杂任务要求高的场景,例如高校、医院、金融机构
5)满血版,大概是指未经过蒸馏或压缩的完整模型(如DEEPSEEK671B),保留全部能力,需要高性能硬件支持,对应“残血版”(如8B/70B参数模型),通过量化技术压缩体积后,在消费级硬件运行
6)DEEPSEEK671B,混合专家MoE,将模型分为多个“专家”模块,根据任务动态调用部分专家,降低结算成本;动态量化,通过压缩模型参数(1.58-bit 量化),将体积从720GB缩小至131GB,适配消费级硬件(如 Mac Studio)
7)关于模型参数,参数是模型内部的可调节开关,可以理解为是模型在训练过程中学到的权重,或者这样理解,大脑中的神经元连接数量,越多越聪明,决定了模型如何处理输入数据并生成输出,理论上,参数越多,模型越能学习复杂的模式,同时也需要更多的计算资源和存储空间
8)关于参数大小,在模型参数中,B通常指十亿,1Billion = 1,000,000,000(十亿),“亿”是“100 million”,1亿=0.1B;671B模型原始体积约720GB,需专业服务器运行;8B模型体积约15GB,普通电脑勉强可运行;参数翻倍,训练所需算力和数据量可能呈指数增长
AI领域通常用“B”快速区分模型大小层级,作为AI模型的“智力标尺”
小型模型:1B-10B(适合手机、嵌入式设备)
中型模型:10B-100B(适合企业级应用)
大型模型:100B以上(需超级算力,如科研、云计算)
| 参数模型 | 典型模型 | 内存需求 | 适用硬件 |
|---|---|---|---|
| 8B | Deepseek-8B | ~15GB | 高端游戏计算机 |
| 70B | LLaMA-70B | ~140GB | 多卡服务器(如8×A100) |
| 671B | DeepSeek-671B | ~720GB | 超算集群/云计算 |
9)关于量化,量化是降低参数的精度来减少模型大小和加速推理的技术,例如,可以这样理解,原先用32位浮点数存储的参数,可以改为16位等等;通过量化,可压缩体积、降低算力需求,速度反而可能会快
10)核心:模型能力 ≈ 参数规模 × 数据质量 × 算法设计

被折叠的 条评论
为什么被折叠?



