https://huggingface.co/deepseek-ai/DeepSeek-R1
1. 硬件没有限制住
这个模型以 Safetensors 文件格式在 Huggingface.co 里上传,163 个 4GB 文件。
模型参数有 685B个 (6850亿个)
数据类型:BF16,F8_E4M3, F32
有以上信息, 可以推算出模型需要的显存数量。这里有一个公式:
- BF16(16 位的浮点数格式 Brain Floating Point):每个参数 2 字节
- F8_E4M3 (8 位浮点数):每个参数 1 字节。
- F32(单精度浮点数):每个参数 4 字节
再带入上面的模型参数大小, 要以推算出来显存的需求:
- BF16:685B 参数 * 2 字节/参数 = 1370B 字节
- F8_E4M3:685B 参数 * 1 字节/参数 = 685B 字节
- F32:685B 参数 * 4 字节/参数 = 2740B 字节
转换成 GB / TB:
- BF16:1370 GB / 1.37 TB
- F8_E4M3:685 GB / 0.69 TB
- F32:2740 GB / 2.74 TB
这些是要在显存上运行的,也仅考虑模型参数的内存需求。
它还需要存储激活、梯度 等其它数据, 实际显存使用量会更高,一倍是 2~4倍。
这些都是估计值。 实际所需的显存量可能会因具体实现、硬件和优化技术而异。也可能有没公开的新技术等原因也可能会少,在训练时使用如:模型并行,数据并行,梯度累积,混合精度训练等都能有效减少显存占用。
以 Nvidia H100 服务器为例: (两个版本: 8GPU+640GB, 8GPU+1TB), 用最高配的 H100 服务器训练一个模型时,要多少台。 往往训练时会有多个模型,在它人论文里也有提到。
2. 蒸馏技术是什么?
别人解题,你抄答案。
举个例子:你把照片分别给到您正在训练的模型(比如叫seekdeep) 和 Chatgpt | Gemini 这类商业模型,并利用 Chatgpt | Gemini 的回复来指导你正在训练的模型学习,这种方法就是 知识蒸馏 (Knowledge Distillation)。
使用 Chatgpt | Gemini 商业模型据进行模型训练,涉及伦理和法律问题,例如数据隐私、知识产权等。但它叫做 遥遥领先。
在它的论文中,都是知识迁移,只不过具体化。将 chatgpt | Gemini 等商业模型中的知识迁移到你正在训练的模型。使用预训练模型并在新任务的数据集上进行微调。同时训练一个模型来执行多个相关的任务,共享知识。学习如何学习,以便能够更快地适应新的任务
3. 提供商用服务的硬件
一般来说像这些大型语言模型,不太可能只用一个模型来服务所有用户。认知里的方式是使用多个模型实例,或者用复杂的架构来支持大规模的用户请求:
- 创建多个相同的模型实例,每个实例都可以独立处理一部分用户请求
- 把用户的请求分到不同的模型实例,每个实例负责处理特定类型的请求
- 多个用户共享同一个模型实例。但要有隔离机制,以免正在使用的用户数据发生泄露,或相互的干扰
- 使用多个不同的模型,每个模型侧重点不一样,各自分担一部分请求,将多个模型的输出进行合并。
- 将大型模型拆分成多个小的服务
总之,
不管怎样,后端运行的系统里,会不止一个模型实例在工作。意味着美国,禁止出口到中国的英伟达硬件的法律,在执行时有重大漏洞。
像 zhipu 这类的模型在使用中就能体会到它有多慢,答复的质量水准与 chatgpt 免费版的距 ... ... 离,是没人在意的。但百万下载量,系统没崩,就完全不一样了。 硬件哪里获得的,论文里蒸馏不叫炒,知识迁移是创新,本该低调的事儿,高喊着 遥遥领先呢
明知在作恶却任意而为之。你是得到了东厂的功名,惩罚留给14亿人。