DeepSeek-R1 多聊几句,为什么使美国忌讳 什么是蒸馏

https://huggingface.co/deepseek-ai/DeepSeek-R1

1. 硬件没有限制住

这个模型以 Safetensors 文件格式在 Huggingface.co 里上传,163 个 4GB 文件。

模型参数有 685B个 (6850亿个)
数据类型:BF16,F8_E4M3, F32

有以上信息, 可以推算出模型需要的显存数量。这里有一个公式:

  • BF16(16 位的浮点数格式 Brain Floating Point):每个参数 2 字节
  • F8_E4M3 (8 位浮点数):每个参数 1 字节。
  • F32(单精度浮点数):每个参数 4 字节

再带入上面的模型参数大小, 要以推算出来显存的需求:

  • BF16:685B 参数 * 2 字节/参数 = 1370B 字节
  • F8_E4M3:685B 参数 * 1 字节/参数 = 685B 字节
  • F32:685B 参数 * 4 字节/参数 = 2740B 字节

转换成 GB / TB:

  • BF16:1370 GB / 1.37 TB
  • F8_E4M3:685 GB / 0.69 TB
  • F32:2740 GB / 2.74 TB

这些是要在显存上运行的,也仅考虑模型参数的内存需求。

它还需要存储激活、梯度 等其它数据, 实际显存使用量会更高,一倍是 2~4倍。

这些都是估计值。 实际所需的显存量可能会因具体实现、硬件和优化技术而异。也可能有没公开的新技术等原因也可能会少,在训练时使用如:模型并行,数据并行,梯度累积,混合精度训练等都能有效减少显存占用。

以 Nvidia H100 服务器为例: (两个版本: 8GPU+640GB,  8GPU+1TB), 用最高配的 H100 服务器训练一个模型时,要多少台。 往往训练时会有多个模型,在它人论文里也有提到。

2. 蒸馏技术是什么?

别人解题,你抄答案。

举个例子:你把照片分别给到您正在训练的模型(比如叫seekdeep)  和 Chatgpt | Gemini 这类商业模型,并利用 Chatgpt | Gemini 的回复来指导你正在训练的模型学习,这种方法就是 知识蒸馏 (Knowledge Distillation)。

使用 Chatgpt | Gemini 商业模型据进行模型训练,涉及伦理和法律问题,例如数据隐私、知识产权等。但它叫做 遥遥领先。

在它的论文中,都是知识迁移,只不过具体化。将 chatgpt | Gemini 等商业模型中的知识迁移到你正在训练的模型。使用预训练模型并在新任务的数据集上进行微调。同时训练一个模型来执行多个相关的任务,共享知识。学习如何学习,以便能够更快地适应新的任务

3. 提供商用服务的硬件

一般来说像这些大型语言模型,不太可能只用一个模型来服务所有用户。认知里的方式是使用多个模型实例,或者用复杂的架构来支持大规模的用户请求:

  • 创建多个相同的模型实例,每个实例都可以独立处理一部分用户请求
  • 把用户的请求分到不同的模型实例,每个实例负责处理特定类型的请求
  • 多个用户共享同一个模型实例。但要有隔离机制,以免正在使用的用户数据发生泄露,或相互的干扰
  • 使用多个不同的模型,每个模型侧重点不一样,各自分担一部分请求,将多个模型的输出进行合并。
  • 将大型模型拆分成多个小的服务

总之,

不管怎样,后端运行的系统里,会不止一个模型实例在工作。意味着美国,禁止出口到中国的英伟达硬件的法律,在执行时有重大漏洞。

像 zhipu 这类的模型在使用中就能体会到它有多慢,答复的质量水准与 chatgpt 免费版的距 ...            ... 离,是没人在意的。但百万下载量,系统没崩,就完全不一样了。 硬件哪里获得的,论文里蒸馏不叫炒,知识迁移是创新,本该低调的事儿,高喊着 遥遥领先呢

明知在作恶却任意而为之。你是得到了东厂的功名,惩罚留给14亿人。

### DeepSeek R1 蒸馏 Qwen 32B 模型介绍 DeepSeek R1 蒸馏 Qwen 32B 是一款基于蒸馏技术优化的大规模预训练语言模型。该模型通过知识蒸馏方法从小于原始大型模型(如Qwen-70B)中提取关键特征并应用于较小的架构,从而实现性能提升的同时显著减少计算资源消耗[^2]。 #### 主要特点: - **高效推理**:相比未经过蒸馏处理的标准版本,此款32B参数量级的小型化变体能够在保持较高精度的前提下提供更快捷稳定的推断服务,具体表现为在个评测标准上的表现优异,例如GSM8K、HumanEval等基准测试中的成绩接近顶尖封闭源码解决方案。 - **开放许可协议支持下的广泛应用场景**:依据MIT许可证条款发布,允许开发者自由获取代码库以及相关文档资料用于研究学习或商业用途开发工作之中[^1]。 #### 部署指南概览 为了便于用户快速上手操作,官方提供了详细的安装指导手册。以下是简化后的步骤概述: 进入目标文件夹位置后执行如下指令完成环境搭建与依赖项配置过程: ```bash cd /home/models git lfs install git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git ``` 上述命令序列首先初始化Git LFS以管理大尺寸二进制对象存储需求;接着克隆远程仓库至本地机器以便后续调用API接口等功能模块[^3]。 #### 参数详情 关于具体的内部结构设计细节及超参设定情况,虽然当前信息有限未能给出详尽描述,但从名称推测可知其基础框架应建立在Transformer之上,并且拥有约三十亿个可训练权重节点参与前向传播运算流程当中。对于更加深入的技术规格解读,则建议查阅项目主页发布的最新版README.md文件获得最权威解释说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值