背景信息
Qwen1.5-4B-Chat
Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型,模型在超大规模的预训练数据(预训练数据类型多样且覆盖广泛,包括大量网络文本、专业书籍、代码等)上进行训练得到。更多模型信息,请参见Qwen GitHub代码库。
LMDeploy
LMDeploy是一种用于压缩、部署和服务大语言模型(LLM)的工具包。主要表现在以下几个方面:
-
模型压缩与优化:LMDeploy可以对大语言模型进行权重量化和KV量化,减少模型大小和内存占用,同时通过各种优化手段(如张量并行、KV缓存等)提高模型推理的效率和吞吐量。
-
部署便捷性:LMDeploy支持将优化后的模型部署到多种环境,包括单机、多机、多GPU环境等,支持分布式部署,确保服务的可扩展性和高可用性。
-
服务管理:LMDeploy可以通过缓存技术减少重复计算,提高响应速度。
更多关于LMDeploy框架的信息,请参见LMDeploy GitHub代码库。
前提条件
-
已创建包含GPU节点的ACK集群Pro版,且集群版本为1.22及以上,GPU节点显存需为16GB及以上。具体操作,请参见创建ACK托管集群。
建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签
ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本。 -
已安装最新版Arena客户端。具体操作,请参见配置Arena客户端。
步骤一:准备模型数据
本文以Qwen1.5-4B-Chat模型为例,演示如何下载模型、上传模型至OSS,以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。
如需上传模型至NAS,请参见使用NAS静态存储卷。
-
下载模型文件。
-
执行以下命令,安装Git。
# 可执行yum install git或apt install git安装。 yum install git -
执行以下命令,安装Git LFS(Large File Support)插件。
# 可执行yum install git-lfs或apt install git-lfs安装。 yum install git-lfs
-

最低0.47元/天 解锁文章
1038

被折叠的 条评论
为什么被折叠?



