丝滑小连招,部署 Vision Language 模型

LMDeploy 自 v0.4.2 开始,支持 VL 模型 4bit 量化及推理部署。包括:

  • llava

  • internvl

  • internlm-xcomposer2

  • qwen-vl

  • deepseek-vl

  • minigemini

  • yi-v

LMDeploy 项目链接:https://github.com/InternLM/lmdeploy

以上模型,除了 InternLM-XComposer2 外均采用 Llama 模型结构作为语言模块,而视觉模块则各有不同。LMDeploy  采用 AWQ 算法量化语言模块,并用 TurboMind 引擎进行加速,而视觉部分仍采用原有的 Transformers 对图片进行 encode。InternLM-XComposer2 模型的语言模块,使用了 Plora 对原本的 Llama 模型进行了微调。LMDeploy 在进行量化时,略过了 Plora 部分的权重,推理时 Plora 保持 w16a16 计算不变。我们挑选了 3 款模型,在 MMBench 数据集上,评测并对比了其量化前后的模型精度。如下表所示,LLaVA、InternVL-Chat 量化后,精度几乎无损,InternLM-XComposer2 略有损失。

LMDeploy 除了支持 w4a16 的计算外,也支持 kv cache 的在线量化。我们对 Mini-InternVL-Chat-2B-V1-5 模型的不同量化方式,在 MMBench 数据集上进行了精度测试。

可以看到,即使采用最激进的 w4a16 kv4 量化方案,精度掉点仍然在可接受范围。当然,用户可以根据实际情况自己选择需要的量化配置,在显存,吞吐量和精度间取得平衡。接下来,我们将以 Mini-InternVL-Chat-2B-V1-5 模型为例,介绍如何用 LMDeploy 丝滑部署 VL 模型。

配置环境 

LMDeploy 可以直接通过 pip 安装预编译包,或者源码安装&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值