使用LMDeploy部署Qwen模型推理服务

最新推荐文章于 2025-09-15 08:37:05 发布

原创

最新推荐文章于 2025-09-15 08:37:05 发布 · 1.1k 阅读

·

33

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#服务器 #运维

背景信息

Qwen1.5-4B-Chat

Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型，模型在超大规模的预训练数据（预训练数据类型多样且覆盖广泛，包括大量网络文本、专业书籍、代码等）上进行训练得到。更多模型信息，请参见Qwen GitHub代码库。

LMDeploy

LMDeploy是一种用于压缩、部署和服务大语言模型（LLM）的工具包。主要表现在以下几个方面：

模型压缩与优化：LMDeploy可以对大语言模型进行权重量化和KV量化，减少模型大小和内存占用，同时通过各种优化手段（如张量并行、KV缓存等）提高模型推理的效率和吞吐量。
部署便捷性：LMDeploy支持将优化后的模型部署到多种环境，包括单机、多机、多GPU环境等，支持分布式部署，确保服务的可扩展性和高可用性。
服务管理：LMDeploy可以通过缓存技术减少重复计算，提高响应速度。

更多关于LMDeploy框架的信息，请参见LMDeploy GitHub代码库。

前提条件

已创建包含GPU节点的ACK集群Pro版，且集群版本为1.22及以上，GPU节点显存需为16GB及以上。具体操作，请参见创建ACK托管集群。

建议GPU节点使用525版本驱动，您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作，请参见通过指定版本号自定义节点GPU驱动版本。
已安装最新版Arena客户端。具体操作，请参见配置Arena客户端。

步骤一：准备模型数据

本文以Qwen1.5-4B-Chat模型为例，演示如何下载模型、上传模型至OSS，以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。

如需上传模型至NAS，请参见使用NAS静态存储卷。

下载模型文件。

执行以下命令，安装Git。

# 可执行yum install git或apt install git安装。
yum install git

执行以下命令，安装Git LFS（Large File Support）插件。

# 可执行yum install git-lfs或apt install git-lfs安装。
yum install git-lfs

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。