【书生大模型实战营】进阶岛 第3关 LMDeploy 量化部署进阶实践

任务

  1. 使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话,作业截图需包括显存占用情况与大模型回复,参考4.1 API开发(优秀学员必做),请注意2.2.3节与4.1节应使用作业版本命令。
  2. 使用Function call功能让大模型完成一次简单的"加"与"乘"函数调用,作业截图需包括大模型回复的工具调用情况,参考4.2 Function call(选做)

1. LMDeploy与InternLM2.5

1.1 LMDeploy API部署InternLM2.5

启动API服务器

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

此时的显存占用情况:
在这里插入图片描述
以命令行形式连接API服务器

lmdeploy serve api_client http://localhost:23333

1.2 LMDeploy Lite

1.2.1 设置最大kv cache缓存大小
lmdeploy chat /root/models/internlm2_5-1_8b-chat --cache-max-entry-count 0.4

此时的显存占用情况:
在这里插入图片描述

1.2.2 设置在线 kv cache int4/int8 量化
lmdeploy serve api_server \
    /root/demo/model/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在这里插入图片描述
此时的显存占用情况:
在这里插入图片描述
以命令行形式连接API服务器,并进行对话:

lmdeploy serve api_client http://localhost:23333

在这里插入图片描述

1.2.3 W4A16 模型量化和部署

准确说,模型量化是一种优化技术,旨在减少机器学习模型的大小并提高其推理速度。量化通过将模型的权重和激活从高精度(如16位浮点数)转换为低精度(如8位整数、4位整数、甚至二值网络)来实现。
因此,W4A16的量化配置意味着:

  • 权重被量化为4位整数。
  • 激活保持为16位浮点数。
lmdeploy lite auto_awq \
   /root/models/internlm2_5-1_8b-chat \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit

等终端输出如下时,说明正在推理中,稍待片刻。
在这里插入图片描述
查看当前的模型文件的大小:
在这里插入图片描述

lmdeploy chat /root/demo/model/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq

此时的显存占用情况:
在这里插入图片描述

1.2.4 W4A16 量化+ KV cache+KV cache 量化

输入以下指令,让我们同时启用量化后的模型、设定kv cache占用和kv cache int4量化。

l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值