丝滑小连招，部署 Vision Language 模型

最新推荐文章于 2025-12-10 03:03:11 发布

原创

最新推荐文章于 2025-12-10 03:03:11 发布 · 833 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#重构 #人工智能 #深度学习 #神经网络 #开源 #计算机视觉

LMDeploy 自 v0.4.2 开始，支持 VL 模型 4bit 量化及推理部署。包括：

llava

internvl

internlm-xcomposer2

qwen-vl

deepseek-vl

minigemini

yi-v

LMDeploy 项目链接：https://github.com/InternLM/lmdeploy

以上模型，除了 InternLM-XComposer2 外均采用 Llama 模型结构作为语言模块，而视觉模块则各有不同。LMDeploy 采用 AWQ 算法量化语言模块，并用 TurboMind 引擎进行加速，而视觉部分仍采用原有的 Transformers 对图片进行 encode。InternLM-XComposer2 模型的语言模块，使用了 Plora 对原本的 Llama 模型进行了微调。LMDeploy 在进行量化时，略过了 Plora 部分的权重，推理时 Plora 保持 w16a16 计算不变。我们挑选了 3 款模型，在 MMBench 数据集上，评测并对比了其量化前后的模型精度。如下表所示，LLaVA、InternVL-Chat 量化后，精度几乎无损，InternLM-XComposer2 略有损失。

LMDeploy 除了支持 w4a16 的计算外，也支持 kv cache 的在线量化。我们对 Mini-InternVL-Chat-2B-V1-5 模型的不同量化方式，在 MMBench 数据集上进行了精度测试。

可以看到，即使采用最激进的 w4a16 kv4 量化方案，精度掉点仍然在可接受范围。当然，用户可以根据实际情况自己选择需要的量化配置，在显存，吞吐量和精度间取得平衡。接下来，我们将以 Mini-InternVL-Chat-2B-V1-5 模型为例，介绍如何用 LMDeploy 丝滑部署 VL 模型。