通义千问 Qwen-72B-Chat 大模型在PAI平台的微调实践

阿里云云栖号

于 2024-01-04 17:01:43 发布

阅读量3.1k

点赞数 27

分类专栏：云栖号技术分享文章标签：云计算阿里云机器学习

本文链接：https://blog.youkuaiyun.com/yunqiinsight/article/details/135391307

版权

通义千问-72B（Qwen-72B）是阿里云研发的通义千问大模型系列的720亿参数规模的大语言模型，在2023年11月正式开源。Qwen-72B的预训练数据类型多样、覆盖广泛，包括大量网络文本、专业书籍、代码等。Qwen-72B-Chat是在Qwen-72B的基础上，使用对齐机制打造的基于大语言模型的AI助手。

阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

本文将以Qwen-72B-Chat为例，介绍如何在PAI平台的快速开始PAI-QuickStart和交互式建模工具PAI-DSW中高效微调千问大模型。

使用PAI-DSW快速体验和轻量化微调Qwen-72B-Chat

PAI-DSW是云端机器学习开发IDE，为用户提供交互式编程环境，同时提供了丰富的计算资源。Qwen-72B-Chat的教程可以在智码实验室（https://gallery.pai-ml.com/）Notebook Gallery中检索到，参见下图：

上述Notebook可以使用阿里云PAI-DSW的实例打开，并且需要选择对应的计算资源和镜像。

快速体验Qwen-72B-Chat

首先，我们在DSW调用ModelScope快速体验Qwen-72B-Chat模型进行对话。在安装完ModelScope相关依赖后，我们可以运行如下Python代码：

from modelscope import AutoModelForCausalLM, AutoTokenizer
from modelscope import GenerationConfig

# Note: The default behavior now has injection attack prevention off.
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen-72B-Chat", revision='master', trust_remote_code=True)

# use bf16
# model = AutoModelForCausalLM.from_pretrained("qwen/Qwen-72B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
# use fp16
# model = AutoModelForCausalLM.from_