DeepSeek R1 在 24GB GPU 上：Unsloth AI 对 6710 亿参数模型进行动态量化

最新推荐文章于 2025-07-26 11:15:00 发布

原创最新推荐文章于 2025-07-26 11:15:00 发布 · 1.6k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #计算机 #AI大模型 #DeepSeek R1 #模型量化 #干货分享

原始的 DeepSeek R1 是一个拥有 6710 亿参数的语言模型，由 Unsloth AI 团队采用动态量化技术处理，实现了 80% 的体积缩减 —— 从 720GB 缩小到最低 131GB —— 同时保持了强劲的性能。

当加入模型卸载（offloading）后，该模型可以在 24GB 显存的环境下运行，并实现低 token/s 的推理速度。

为什么模型体积对大型语言模型如此重要

大型语言模型天生需要大量存储和计算资源。

为了本地推理，维持所有参数的全精度表示（通常是 FP16 或 FP32）是不现实的，因为这对内存的需求过于庞大。

量化（即降低权重表示的位宽）提供了一种解决方案，能够显著减少模型的体积和内存占用。

然而，对整个网络进行简单、统一的量化可能会导致严重的性能下降，表现为输出不稳定或生成重复的 token。

动态量化：量身定制的方法

Unsloth AI 团队的方法采用了动态量化，根据不同网络组件的敏感性分配不同的位宽。其关键技术点包括：

选择性精度分配: 对于初始的全连接层和下投影矩阵（down_proj），它们对于建立稳定的表示和管理 SwiGLU 激活中的缩放特性至关重要，因此保持较高精度（4 位或 6 位）。而模型大部分参数——主要位于占模型约 88% 的专家混合（Mixture-of-Experts, MoE）层中——则被激进地量化到 1.5 至 2 位。
重要性矩阵校准: 在量化过程中引入重要性矩阵，使得方法能够根据每一层的情况动态调整精度水平。这种校准避免了均匀量化常见的问题，比如无限循环或输出无意义结果。
层级特定敏感性分析: 技术评估表明，虽然 MoE 层可以容忍较低精度，但像注意力机制、嵌入层和最终输出层等组件则需要更多位宽来保留激活分布。这个精细化策略确保了计算图中关键路径的精度得以保留。

量化模型变体与性能

Unsloth AI 已经发布了多个动态量化变体，每个变体在模型体积和输出质量之间做出了平衡：

例如，在一个受控测试中，模型被要求生成一个 Flappy Bird 游戏的 Python 实现，即使是最小的 1.58 位变体也保持了相当的功能。

相比之下，对所有层进行均匀量化则导致输出重复或完全无法生成连贯的代码。

本地部署 DeepSeek R1

这些动态量化模型设计用于运行在常见的推理引擎上，例如支持 Unsloth AI 发布的 GGUF 文件格式的 llama.cpp。以下是部署流程的概述：

1.构建推理引擎

克隆并编译启用了 GPU 支持的 llama.cpp。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake . -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split

2.下载模型

通过 Hugging Face Hub 获取所需的模型变体。

from huggingface_hub import snapshot_download


snapshot_download(
    repo_id="unsloth/DeepSeek-R1-GGUF",
    local_dir="DeepSeek-R1-GGUF",
    allow_patterns=["*UD-IQ1_S*"],  # For the 1.58-bit version
)

3.GPU 卸载注意事项

在这里插入图片描述

根据可用的显存，通过如下方式确定需要卸载到 GPU 的层数：

n_offload = floor((GPU_VRAM_GB / Model_FileSize_GB) * (Total_Layers - 4))

4.运行推理

使用类似如下的命令来执行模型：

./build/bin/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q4_0 \
    --threads 16 \
    --prio 2 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --n-gpu-layers 7 \
    -no-cnv \
    --prompt "<|User|>Create a Flappy Bird game in Python.<|Assistant|>"

我的体验

我想亲自尝试一下这种动态量化。为了测试该模型，我在 VastAI 上租用了一个 80GB 显存的 GPU，每小时仅需 2.7 美元。考虑到原始模型的庞大体积，我对量化版本的性能和效率非常满意。以下是我进行的一些示例测试：

Flappy Bird 游戏生成: 该模型成功生成了经典 Flappy Bird 游戏的 Python 实现。尽管存在一些由于激进量化而产生的小问题，但核心功能保持完好，代码在经过极少的修改后即可运行。
运动检测

常见问题与技术注意事项

分词细节： 注意特殊 token（例如 <|User|>, <|Assistant|>, <|begin_of_sentence|>, <|end_of_sentence|>）。处理不当可能会导致重复的 BOS token 或错误的 EOS 掩码等问题。
参数敏感性： 有时，动态量化可能会在较长的序列中生成一个孤立的不正确 token。通过调整推理参数（例如将 min_p 设置为 0.1 或 0.05）可以帮助缓解这些小偏差。

结论

Unsloth AI 对 DeepSeek R1 的动态量化展示了模型压缩技术的重大进步。

通过在不同网络层之间智能地分配位精度，该方法在将模型存储占用量减少高达 80% 的同时，仍然保持了必要的计算精度。

这意味着最先进的大型语言模型如今更加易于获取，使得在之前硬件不足的设备上进行实验和部署成为可能。

如果你有兴趣深入了解，建议你前往 Hugging Face 查看该模型以及 llama.cpp 的 GitHub 仓库。同时也可以阅读他们的原始文章：Run DeepSeek-R1 Dynamic 1.58-bit (https://unsloth.ai/blog/deepseekr1-dynamic)