LMDeploy支持模型大全:100+LLM/VLM部署清单
引言:解锁大模型部署的无限可能
你是否还在为选择合适的大模型部署工具而烦恼?是否在面对众多LLM(Large Language Model,大型语言模型)和VLM(Vision-Language Model,视觉语言模型)时感到无从下手?LMDeploy作为一款功能强大的大模型压缩、部署和服务工具包,为你提供了一站式解决方案。本文将详细介绍LMDeploy支持的100+LLM/VLM模型,帮助你快速找到适合自己需求的模型,并轻松完成部署。读完本文,你将能够:
- 了解LMDeploy支持的各类LLM和VLM模型及其特点
- 掌握不同模型的部署要求和注意事项
- 选择最适合你应用场景的大模型
一、LMDeploy简介
LMDeploy是一个专为大模型部署设计的工具包,它提供了模型压缩、推理优化、服务部署等一系列功能,帮助开发者快速将大模型应用到实际生产环境中。LMDeploy支持多种部署方式,包括本地部署、云端部署、容器化部署等,同时提供了丰富的API接口,方便与各种应用系统集成。
1.1 LMDeploy的核心优势
- 高效压缩:支持多种模型压缩技术,如量化、剪枝等,减小模型体积,提高推理速度
- 灵活部署:支持多种部署方式,满足不同场景的需求
- 全面兼容:支持100+LLM/VLM模型,覆盖主流大模型生态
- 易用性强:提供简洁的API和命令行工具,降低部署门槛
二、LLM模型支持清单
2.1 通用LLM模型
| 模型名称 | 模型类型 | 支持版本 | 部署要求 |
|---|---|---|---|
| LLaMA | 基础模型 | 1/2 | 至少16GB显存 |
| LLaMA-2 | 基础模型 | 7B/13B/70B | 至少16GB显存(7B) |
| LLaMA-3 | 基础模型 | 8B/70B | 至少24GB显存(8B) |
| Mistral | 基础模型 | 7B/8x7B | 至少16GB显存(7B) |
| Mixtral | 混合专家模型 | 8x7B | 至少32GB显存 |
| Falcon | 基础模型 | 7B/40B | 至少16GB显存(7B) |
| MPNet | 基础模型 | Base/Large | 至少8GB显存 |
| BERT | 基础模型 | Base/Large | 至少8GB显存 |
| RoBERTa | 基础模型 | Base/Large | 至少8GB显存 |
| GPT-2 | 基础模型 | Small/Medium/Large/XLarge | 至少8GB显存(Small) |
| GPT-Neo | 基础模型 | 1.3B/2.7B | 至少16GB显存(1.3B) |
| GPT-J | 基础模型 | 6B | 至少24GB显存 |
| GPT-NeoX | 基础模型 | 20B | 至少48GB显存 |
2.2 中文LLM模型
| 模型名称 | 模型类型 | 支持版本 | 部署要求 |
|---|---|---|---|
| Baichuan | 基础模型 | 7B/13B | 至少16GB显存(7B) |
| Baichuan-2 | 基础模型 | 7B/13B | 至少16GB显存(7B) |
| Qwen | 基础模型 | 7B/14B/72B | 至少16GB显存(7B) |
| Qwen-2 | 基础模型 | 0.5B/1.8B/7B/57B | 至少8GB显存(0.5B) |
| Qwen-2.5 | 基础模型 | 1.5B/7B/32B/110B | 至少8GB显存(1.5B) |
| Yi | 基础模型 | 6B/34B | 至少16GB显存(6B) |
| Yi-1.5 | 基础模型 | 9B/34B | 至少24GB显存(9B) |
| InternLM | 基础模型 | 7B/20B | 至少16GB显存(7B) |
| InternLM-2 | 基础模型 | 7B/20B/70B | 至少16GB显存(7B) |
| Ziya | 基础模型 | 7B/13B | 至少16GB显存(7B) |
| ChatGLM | 对话模型 | 6B | 至少16GB显存 |
| ChatGLM2 | 对话模型 | 6B | 至少16GB显存 |
| ChatGLM3 | 对话模型 | 6B/13B | 至少16GB显存(6B) |
| MOSS | 对话模型 | 16B | 至少32GB显存 |
2.3 代码LLM模型
| 模型名称 | 模型类型 | 支持版本 | 部署要求 |
|---|---|---|---|
| CodeLlama | 代码模型 | 7B/13B/34B | 至少16GB显存(7B) |
| CodeGeeX | 代码模型 | 13B | 至少24GB显存 |
| CodeGeeX2 | 代码模型 | 6B/13B | 至少16GB显存(6B) |
| StarCoder | 代码模型 | Base/Large | 至少16GB显存(Base) |
| CodeParrot | 代码模型 | 1.5B | 至少8GB显存 |
三、VLM模型支持清单
3.1 通用VLM模型
| 模型名称 | 模型类型 | 支持版本 | 部署要求 |
|---|---|---|---|
| CLIP | 对比语言-图像预训练 | ViT-B/32, ViT-L/14等 | 至少8GB显存 |
| ALBEF | 对齐语言-图像预训练 | Base/Large | 至少16GB显存(Base) |
| FLAVA | 融合语言-视觉架构 | Base | 至少16GB显存 |
| ALIGN | 大规模图像语言对齐 | 13B | 至少24GB显存 |
| BLIP | 自举语言图像预训练 | Base/Large | 至少16GB显存(Base) |
| BLIP-2 | 自举语言图像预训练 | FlanT5-XXL, ViT-G等 | 至少48GB显存 |
| Florence | 微软视觉语言模型 | Base/Large | 至少16GB显存(Base) |
3.2 对话式VLM模型
| 模型名称 | 模型类型 | 支持版本 | 部署要求 |
|---|---|---|---|
| LLaVA | 语言-视觉助手 | 1.5, 1.6 | 至少24GB显存 |
| LLaVA-NeXT | 语言-视觉助手 | 1.0 | 至少24GB显存 |
| MiniGPT-4 | 迷你GPT-4 | v1, v2 | 至少24GB显存 |
| mPLUG-Owl | 多模态插件猫头鹰 | 2 | 至少24GB显存 |
| Otter | 多模态模型 | 13B | 至少24GB显存 |
| Qwen-VL | 通义千问视觉版 | 7B/14B | 至少24GB显存(7B) |
| Qwen-2-VL | 通义千问2视觉版 | 7B/14B/72B | 至少24GB显存(7B) |
| Qwen-2.5-VL | 通义千问2.5视觉版 | 7B/32B/110B | 至少24GB显存(7B) |
| InternVL | 书生视觉语言模型 | 1.5, 2.0 | 至少24GB显存 |
| CogVLM | 认知视觉语言模型 | Base/Plus/2B | 至少24GB显存(Base) |
| DeepSeek-VL | 深度求索视觉语言模型 | 7B/13B | 至少24GB显存(7B) |
| DeepSeek-VL2 | 深度求索视觉语言模型2 | 7B/16B | 至少24GB显存(7B) |
| phi-3-vision | phi-3视觉模型 | 3.8B | 至少16GB显存 |
| Gemma-3-vision | Gemma3视觉模型 | 9B | 至少24GB显存 |
| Molmo | 多模态语言模型 | 7B | 至少24GB显存 |
| XComposer2.5 | 跨模态作曲家2.5 | 7B | 至少24GB显存 |
四、模型部署流程
4.1 环境准备
在部署模型之前,需要确保你的环境满足以下要求:
- Python 3.8及以上版本
- CUDA 11.3及以上版本(如果使用GPU加速)
- 足够的显存空间(根据模型要求)
首先,克隆LMDeploy仓库:
git clone https://gitcode.com/gh_mirrors/lm/lmdeploy.git
cd lmdeploy
然后,安装依赖:
pip install -e .
4.2 模型部署步骤
使用LMDeploy部署模型的基本流程如下:
- 模型转换:将原始模型转换为LMDeploy支持的格式
- 配置优化:根据模型和硬件情况,配置推理优化参数
- 启动服务:启动模型服务,提供API接口
- 测试验证:测试模型服务是否正常工作
下面以部署Qwen-7B模型为例,演示具体部署步骤:
4.2.1 模型转换
lmdeploy convert qwen --model-path /path/to/qwen-7b --dst-path ./deployed_qwen_7b
4.2.2 配置优化
创建配置文件qwen_config.yaml:
model:
type: qwen
model_path: ./deployed_qwen_7b
max_batch_size: 16
max_seq_len: 2048
inference:
tensor_parallel: 1
quant_mode: w8a8
4.2.3 启动服务
lmdeploy serve --config qwen_config.yaml --port 8000
4.2.4 测试验证
使用curl测试API:
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"prompt": "你好,世界!", "max_new_tokens": 100}'
五、常见问题与解决方案
5.1 模型部署失败
问题描述:执行模型转换命令时,出现"Out of memory"错误。
解决方案:
- 检查显存是否满足模型要求
- 使用更小的批次大小
- 启用模型量化(如w8a8量化)
5.2 推理速度慢
问题描述:模型部署成功,但推理速度较慢。
解决方案:
- 检查是否启用了GPU加速
- 调整推理参数,如增加batch size
- 使用更高级的量化技术
- 考虑模型剪枝等压缩方法
5.3 模型不支持
问题描述:尝试部署的模型不在支持清单中。
解决方案:
- 检查模型是否有其他名称或版本被支持
- 提交issue请求添加模型支持
- 尝试使用自定义模型部署功能
六、总结与展望
LMDeploy作为一款功能强大的大模型部署工具包,支持100+LLM/VLM模型,为开发者提供了便捷、高效的模型部署解决方案。本文详细介绍了LMDeploy支持的各类模型及其特点,希望能够帮助你快速找到适合自己需求的模型,并成功完成部署。
随着大模型技术的不断发展,LMDeploy将持续更新,支持更多新型号、新功能。我们期待与社区一起,不断完善LMDeploy,为大模型的产业化应用贡献力量。
如果你对LMDeploy有任何问题或建议,欢迎通过以下方式与我们联系:
- GitHub仓库:https://gitcode.com/gh_mirrors/lm/lmdeploy
- 官方文档:https://lmdeploy.readthedocs.io/
让我们一起探索大模型部署的无限可能!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



