使用LMDeploy部署Qwen模型推理服务

背景信息

Qwen1.5-4B-Chat

Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型,模型在超大规模的预训练数据(预训练数据类型多样且覆盖广泛,包括大量网络文本、专业书籍、代码等)上进行训练得到。更多模型信息,请参见Qwen GitHub代码库

LMDeploy

LMDeploy是一种用于压缩、部署和服务大语言模型(LLM)的工具包。主要表现在以下几个方面:

  • 模型压缩与优化:LMDeploy可以对大语言模型进行权重量化和KV量化,减少模型大小和内存占用,同时通过各种优化手段(如张量并行、KV缓存等)提高模型推理的效率和吞吐量。

  • 部署便捷性:LMDeploy支持将优化后的模型部署到多种环境,包括单机、多机、多GPU环境等,支持分布式部署,确保服务的可扩展性和高可用性。

  • 服务管理:LMDeploy可以通过缓存技术减少重复计算,提高响应速度。

更多关于LMDeploy框架的信息,请参见LMDeploy GitHub代码库

前提条件

  • 已创建包含GPU节点的ACK集群Pro版,且集群版本为1.22及以上,GPU节点显存需为16GB及以上。具体操作,请参见创建ACK托管集群

    建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本

  • 已安装最新版Arena客户端。具体操作,请参见配置Arena客户端

步骤一:准备模型数据

本文以Qwen1.5-4B-Chat模型为例,演示如何下载模型、上传模型至OSS,以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。

如需上传模型至NAS,请参见使用NAS静态存储卷

  1. 下载模型文件。

    1. 执行以下命令,安装Git。

      # 可执行yum install git或apt install git安装。
      yum install git
    2. 执行以下命令,安装Git LFS(Large File Support)插件。

      # 可执行yum install git-lfs或apt install git-lfs安装。
      yum install git-lfs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值