基于ACK使用TGI部署Qwen模型推理服务

原创

于 2024-12-15 11:00:00 发布 · 1.5k 阅读

·

43

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文以Qwen1.5-4B-Chat模型、GPU类型为A10卡为例，演示如何在ACK中使用Hugging Face的TGI（Text Generation Inference）框架部署Qwen（通义千问）模型推理服务。

背景信息

Qwen1.5-4B-Chat

Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型，模型在超大规模的预训练数据（预训练数据类型多样且覆盖广泛，包括大量网络文本、专业书籍、代码等）上进行训练得到。更多模型信息，请参见Qwen GitHub代码库。

TGI（Text Generation Inference）

TGI是Hugging Face开源的用于部署大语言模型推理服务的工具，能够简单快速的部署常见的大语言模型，支持Flash Attention、Paged Attention、Continuous batching、 Tensor parallelism等功能来加速推理性能，更多信息，请参见TGI官方文档。

前提条件

已创建包含A10卡GPU的Kubernetes集群，且集群版本为1.22及以上。具体操作，请参见创建GPU集群。

建议GPU节点使用525版本驱动，您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作，请参见通过指定版本号自定义节点GPU驱动版本。
已安装最新版Arena客户端。具体操作，请参见配置Arena客户端。

步骤一：准备模型数据

本文以Qwen1.5-4B-Chat模型为例，演示如何下载模型、上传模型至OSS，以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。

如需上传模型至NAS，请参见使用NAS静态存储卷。

1. 下载模型文件。
  1. 执行以下命令，安装Git。
```
# 可执行yum install git或apt install git安装。
yum install git
```
  2. 执行以下命令，安装Git LFS（Large File Support）插件。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。