Qwen2.5环境搭建&推理测试

引子

2024年9月19号,阿里推出Qwen2.5全家桶,各种尺寸的都有。9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前十唯一的中国大模型;Qwen系列视觉语言模型Qwen2-VL-72B-Instruct排名Vision榜单第九,是得分最高的开源大模型。这次这种全尺寸的,我们要选就选一个最小的吧,0.5B的,OK,那就让我们开始吧。

一、模型介绍

Qwen2.5是Qwen大型语言模型系列的最新成果。对于Qwen2.5,我们发布了从0.5到720亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5相比Qwen2带来了以下改进:

1、显著增加的知识量,在编程与数学领域的能力有了极大提升,这得益于我们在这些领域的专业专家模型。

2、在遵循指令、生成长文本(超过8K个token)、理解结构化数据(如表格)及生成特别是JSON格式的结构化输出方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人的角色扮演实现和条件设定功能。

3、支持长上下文,最多可达128K个token,并能生成最多8K个token的文本。

4、支持超过29种语言的多语言能力,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

二、环境搭建

1、模型下载

魔搭社区

2、代码下载

git clone GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash

pip install transformers==4.37.0 -i Simple Index

pip install accelerate==0.26.0 -i Simple Index

pip install auto-gptq -i Simple Index

pip install optimum -i Simple Index

三、推理测试

cd /workspace/Qwen2.5/Qwen2.5-main/examples/demo

python cli_demo.py

### Qwen2.5 模型本地推理教程 对于希望在本地环境中运行Qwen2.5模型的用户来说,完整的配置过程涉及几个重要环节。首先是环境搭建,在这一阶段建议创建独立的虚拟环境来隔离项目依赖[^2]。 #### 创建并激活虚拟环境 为了确保项目的稳定性和兼容性,推荐使用`virtualenv`或`conda`工具建立新的工作空间: ```bash # 使用 virtualenv 创建名为 qwen_env 的新环境 virtualenv qwen_env # 或者使用 conda 创建相同名称的新环境 conda create --name qwen_env python=3.8 ``` 接着通过命令行进入新建好的虚拟环境中执行后续安装操作: ```bash source qwen_env/bin/activate # Linux/macOS 用户适用 .\qwen_env\Scripts\activate # Windows 用户适用 ``` #### 安装必要的依赖库 完成上述准备工作之后,则需利用pip或其他包管理器获取所需软件组件。具体而言,除了基础框架外,还需特别注意引入支持特定功能(比如GPU加速)的相关扩展模块[^4]。 ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117 pip install transformers datasets sentencepiece accelerate optimum ``` 以上指令假设读者已具备CUDA计算能力;如果目标平台仅限于CPU运算,请调整PyTorch版本参数以匹配实际情况。 #### 获取预训练权重文件 有了适当的工作区和开发套件后,下一步就是取得官方发布的预训练参数集。这一步可通过访问魔搭(ModelScope)提供的资源页面实现,按照指引说明下载对应架构下的二进制数据至指定位置保存[^1]。 #### 执行初步验证测试 当一切就绪之时,不妨先编写一段简单的脚本来检验整个流程是否顺畅无阻。下面给出了一种可能的方法用于快速启动交互式会话界面: ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("path/to/local/model/directory") model = AutoModelForCausalLM.from_pretrained("path/to/local/model/directory") input_text = "你好" inputs = tokenizer(input_text, return_tensors="pt").to('cuda' if torch.cuda.is_available() else 'cpu') outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 这段代码片段展示了怎样加载自定义路径中的模型实例,并尝试生成回复消息作为输出展示给最终使用者查看。 #### 启动API服务供外部调用 最后,为了让其他应用程序能够方便地接入此AI引擎所提供的自然语言处理能力,可以考虑将其封装成RESTful Web Service的形式对外公开接口。借助FastAPI这类轻量级微框架可以帮助简化这项任务。 ```python from fastapi import FastAPI from pydantic import BaseModel from typing import List app = FastAPI() class InputData(BaseModel): text: str @app.post("/predict/") async def predict(data: InputData): inputs = tokenizer(data.text, return_tensors="pt").to('cuda' if torch.cuda.is_available() else 'cpu') outputs = model.generate(**inputs) result = {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)} return result ``` 这样便构建起了一个简易版在线预测服务平台,允许远程客户端发送POST请求携带待解析字符串获得即时响应结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

要养家的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值