进阶关卡-第3关：LMDeploy量化部署进阶实践

最新推荐文章于 2025-06-05 14:48:21 发布

小马加油干

最新推荐文章于 2025-06-05 14:48:21 发布

阅读量686

点赞数 8

分类专栏：书生浦语训练营文章标签： AIGC 开源

本文链接：https://blog.youkuaiyun.com/weixin_44001574/article/details/144455104

版权

书生浦语训练营专栏收录该内容

15 篇文章

订阅专栏

任务链接：https://github.com/InternLM/Tutorial/blob/camp4/docs/L2/LMDeploy/task.md

基础任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话，作业截图需包括显存占用情况与大模型回复，参考4.1 API开发(优秀学员必做)，请注意2.2.3节与4.1节应使用作业版本命令。

使用Function call功能让大模型完成一次简单的"加"与"乘"函数调用，作业截图需包括大模型回复的工具调用情况，参考4.2 Function call(选做)

1 配置LMDeploy环境

1.1 创建开发机与环境搭建

打开InternStudio平台，进入点击创建开发机，自定义开发机名称，选择Cuda12.2-conda镜像，进行开发机的创建。

在魔搭社区或Hugging Face平台中查询InternLM2.5-7b-chat的config.json文件可知，该模型的权重被存储为bfloat16格式

对于一个7B(70亿)参数的模型，每个参数使用16位浮点数(等于 2个Byte)表示，则模型的权重大小约为：

7×10^9 parameters×2 Bytes/parameter=14GB

70亿个参数×每个参数占用2个字节=14GB

所以我们需要大于14GB的显存，选择30%A100*1(24GB显存容量)，后选择立即创建，等状态栏变成运行中，点击进入开发机，我们即可开始部署。

在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。

conda create -n lmdeploy  python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3
pip install datasets==2.19.2

1.2 InternStudio环境获取模型

为方便文件管理，我们需要一个存放模型的目录，本教程统一放置在/root/models/目录。

运行以下命令，创建文件夹并设置开发机共享目录的软链接。

mkdir /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat /root/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/models

此时，我们可以看到/root/models中会出现internlm2_5-7b-chat、internlm2_5-1_8b-chat和InternVL2-26B文件夹。

教程使用internlm2_5-7b-chat和InternVL2-26B作为演示。由于上述模型量化会消耗大量时间(约8h)，量化作业请使用internlm2_5-1_8b-chat模型完成。

1.3 LMDeploy验证启动模型文件

在量化工作正式开始前，我们还需要验证一下获取的模型文件能否正常工作，以免竹篮打水一场空。

让我们进入创建好的conda环境并启动InternLM2_5-7b-chat！

conda activate lmdeploy
lmdeploy chat /root/models/internlm2_5-1_8b-chat

稍待片刻，启动成功后，会显示如下。

此时，我们可以在CLI(“命令行界面” Command Line Interface的缩写)中和InternLM2.5尽情对话了，注意输入内容完成后需要按两次回车才能够执行，以下为示例。

2 LMDeploy与InternLM2.5

2.1 LMDeploy API部署InternLM2.5

在上一章节，我们直接在本地部署InternLM2.5。而在实际应用中，我们有时会将大模型封装为API接口服务，供客户端访问。

2.1.1 启动API服务器

首先让我们进入创建好的conda环境，并通下命令启动API服务器，部署InternLM2.5模型：

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

命令解释：

lmdeploy serve api_server：这个命令用于启动API服务器。
/root/models/internlm2_5-1_8b-chat：这是模型的路径。
–model-format hf：这个参数指定了模型的格式。hf代表“Hugging Face”格式。
–quant-policy 0：这个参数指定了量化策略。
–server-name 0.0.0.0：这个参数指定了服务器的名称。在这里，0.0.0.0是一个特殊的IP地址，它表示所有网络接口。
–server-port 23333：这个参数指定了服务器的端口号。在这里，23333是服务器将监听的端口号。
–tp 1：这个参数表示并行数量（GPU数量）。

稍待片刻，终端显示如下:

这一步由于部署在远程服务器上，所以本地需要做一下ssh转发才能直接访问。在你本地打开一个cmd或powershell窗口，输入命令如下：

ssh -CNg -L 23333:127.0.0.1:23333 root@ssh.intern-ai.org.cn -p 你的ssh端口号

然后打开浏览器，访问[http://127.0.0.1:23333](http://127.0.0.1:23333)看到如下界面即代表部署成功。

2.1.2 以命令行形式连接API服务器

关闭[http://127.0.0.1:23333](http://127.0.0.1:23333)网页，但保持终端和本地窗口不动，按箭头操作新建一个终端。

运行如下命令，激活conda环境并启动命令行客户端。

conda activate lmdeploy
lmdeploy serve api_client http://localhost:23333

稍待片刻，等出现double enter to end input >>>的输入提示即启动成功，此时便可以随意与InternLM2.5对话，同样是两下回车确定，输入exit退出。

2.1.3 以Gradio网页形式连接API服务器

保持第一个终端不动，在新建终端中输入exit退出。

输入以下命令，使用Gradio作为前端，启动网页。

lmdeploy serve gradio http://localhost:23333 \
    --server-name 0.0.0.0 \
    --server-port 6006

稍待片刻，等终端如下图所示便保持两个终端不动。

关闭之前的cmd/powershell窗口，重开一个，再次做一下ssh转发(因为此时端口不同)。在你本地打开一个cmd或powershell窗口，输入命令如下。

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p <你的ssh端口号>

打开浏览器，访问地址[http://127.0.0.1:6006](http://127.0.0.1:6006)，然后就可以与模型尽情对话了。

2.2 LMDeploy Lite

随着模型变得越来越大，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。LMDeploy 提供了权重量化和k/v cache两种策略。

2.2.1 设置最大kv cache缓存大小

kv cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。在大规模训练和推理中，kv cache可以显著减少重复计算量，从而提升模型的推理速度。理想情况下，kv cache全部存储于显存，以加快访存速度。

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、<u>kv cache</u>占用的显存，以及中间运算结果占用的显存。LMDeploy的kv cache管理器可以通过设置--cache-max-entry-count参数，控制kv缓存占用剩余显存的最大比例。默认的比例为0.8。

首先我们先来回顾一下InternLM2.5正常运行时占用显存。

占用了**20GB**，那么试一试执行以下命令，再来观看占用显存情况。

lmdeploy chat /root/models/internlm2_5-1_8b-chat --cache-max-entry-count 0.4

稍待片刻，观测显存占用情况，可以看到减少了约8GB的显存。

让我们计算一下8GB显存的减少缘何而来，

对于修改kv cache默认占用之前，直接启动模型的显存占用情况(20.33GB)：

在 BF16 精度下，1.8B模型权重占用3.6GB：18×10^9 parameters×2 Bytes/parameter=3.6GB
kv cache占用16.32GB：剩余显存24-3.6=20.4GB，kv cache默认占用80%，即20.4*0.8=16.32GB
其他项0.4GB

对于修改kv cache占用之后的显存占用情况(12.16GB)：

与上述声明一致，在 BF16 精度下，1.8B模型权重占用3.6GB
kv cache占用4GB：剩余显存24-3.6=20.4GB，kv cache修改为占用40%，即20.4*0.4=8.16GB
其他项0.4GB

故：12.16GB=权重占用3.6GB+**kv cache**占用8.16GB+其它项0.4GB

2.2.2 设置在线 kv cache int4/int8 量化

自v0.4.0起，LMDeploy支持在线kv cache int4/int8量化，量化方式为per-head per-token的非对称量化。

此外，通过LMDeploy应用 kv 量化非常简单，只需要设定quant_policy和cache-max-entry-count参数。目前，LMDeploy 规定 quant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。

我们通过2.1 LMDeploy API部署InternLM2.5的实践为例，输入以下指令，启动API服务器。

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

稍待片刻，显示如下即代表服务启动成功。

可以看到此时显存占用仍约为12GB，与上一小节中，设置kv cache占用参数cache-max-entry-count至0.4而减少的显存占用接近。

那么本节与上一小节相近的显存占用有什么区别？

由于都使用BF16精度下的internlm2.5 1.8B模型，故剩余显存均为20.4GB，

且cache-max-entry-count均为0.4，这意味着LMDeploy将分配40%的剩余显存用于kv cache，即20.4GB*0.4=8.16GB。

但quant-policy设置为4时，意味着使用int4精度进行量化。因此，LMDeploy将会使用int4精度提前开辟8.16GB的kv cache。

相比使用BF16精度的kv cache，int4的Cache可以在相同8.16GB的显存下只需要4位来存储一个数值，而BF16需要16位。这意味着int4的Cache可以存储的元素数量是BF16的四倍。

2.2.3 W4A16 模型量化和部署

准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。

那么标题中的W4A16又是什么意思呢？

W4：这通常表示权重量化为4位整数（int4）。这意味着模型中的权重参数将从它们原始的浮点表示（例如FP32、BF16或FP16，Internlm2.5精度为BF16）转换为4位的整数表示。这样做可以显著减少模型的大小。
A16：这表示激活（或输入/输出）仍然保持在16位浮点数（例如FP16或BF16）。激活是在神经网络中传播的数据，通常在每层运算之后产生。

因此，W4A16的量化配置意味着：

权重被量化为4位整数。
激活保持为16位浮点数。

回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。

输入以下指令，执行量化工作。(不建议运行，在InternStudio上运行需要8小时)

lmdeploy lite auto_awq \
   /root/models/internlm2_5-1_8b-chat \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit

命令解释：

lmdeploy lite auto_awq: lite是LMDeploy的命令，用于启动量化过程，而auto_awq代表自动权重量化（auto-weight-quantization）。
/root/models/internlm2_5-1_8b-chat: 模型文件的路径。
--calib-dataset 'ptb': 这个参数指定了一个校准数据集，这里使用的是’ptb’（Penn Treebank，一个常用的语言模型数据集）。
--calib-samples 128: 这指定了用于校准的样本数量—128个样本
--calib-seqlen 2048: 这指定了校准过程中使用的序列长度—2048
--w-bits 4: 这表示权重（weights）的位数将被量化为4位。
--work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit: 这是工作目录的路径，用于存储量化后的模型和中间结果。

等终端输出如下时，说明正在推理中，耐心等待。

等待推理完成，便可以直接在你设置的目标文件夹看到对应的模型文件。

那么推理后的模型和原本的模型区别在哪里呢？最明显的两点是模型文件大小以及占据显存大小。

我们可以输入如下指令查看在当前目录中显示所有子目录的大小。

cd /root/models/
du -sh *

输出结果如下：量化后的1.8B模型的大小为1.5G。(其余文件夹都是以软链接的形式存在的，不占用空间，故显示为0)

输入以下指令查看原模型大小。

cd /root/share/new_models/Shanghai_AI_Laboratory/
du -sh *

终端输出结果如下：1.8B模型的初始大小为3.6G。

输入以下指令启动量化后的模型，查看量化后模型的显存占用情况：

lmdeploy chat /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq

稍待片刻，我们直接观测右上角的显存占用情况。

可以发现，相比较于原先的20.33GB显存占用，W4A16量化后的模型少了约0.6GB的显存占用。

对于W4A16量化之后的显存占用情况(19.7GB)：

在 int4 精度下，1.8B模型权重占用0.9GB：3.6/4=0.9GB
1. bfloat16是16位的浮点数格式，占用2字节（16位）的存储空间。
2. int4是4位的整数格式，占用0.5字节（4位）的存储空间。

因此，从bfloat16到int4的转换理论上可以将模型权重的大小减少到原来的1/4，即1.8B个int4参数仅占用0.9GB的显存。

kv cache占用18.48GB：剩余显存24-0.9=23.1GB，kv cache默认占用80%，即23.1*0.8=18.48GB
其他项约0.4GB

故19.7GB=权重占用0.9GB+kv cache占用18.4GB+其它项0.4GB

2.2.4 W4A16 量化+ KV cache 量化

输入以下指令，同时启用量化后的模型、设定kv cache占用和kv cache int4量化。

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

此时显存占用约11GB。