基于ACK使用TGI部署Qwen模型推理服务

本文以Qwen1.5-4B-Chat模型、GPU类型为A10卡为例,演示如何在ACK中使用Hugging Face的TGI(Text Generation Inference)框架部署Qwen(通义千问)模型推理服务。

背景信息

Qwen1.5-4B-Chat

Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型,模型在超大规模的预训练数据(预训练数据类型多样且覆盖广泛,包括大量网络文本、专业书籍、代码等)上进行训练得到。更多模型信息,请参见Qwen GitHub代码库

TGI(Text Generation Inference

TGI是Hugging Face开源的用于部署大语言模型推理服务的工具,能够简单快速的部署常见的大语言模型,支持Flash AttentionPaged Attention、Continuous batching、 Tensor parallelism等功能来加速推理性能,更多信息,请参见TGI官方文档

前提条件

  • 已创建包含A10卡GPU的Kubernetes集群,且集群版本为1.22及以上。具体操作,请参见创建GPU集群

    建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本

  • 已安装最新版Arena客户端。具体操作,请参见配置Arena客户端

步骤一:准备模型数据

本文以Qwen1.5-4B-Chat模型为例,演示如何下载模型、上传模型至OSS,以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。

如需上传模型至NAS,请参见使用NAS静态存储卷

    1. 下载模型文件。

      1. 执行以下命令,安装Git。

        # 可执行yum install git或apt install git安装。
        yum install git
      2. 执行以下命令,安装Git LFS(Large File Support)插件。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值