玩一玩阿里通义千问开源版,Win11 RTX3060本地安装记录!

本文记录了在Win11系统,配备RTX3060 12G显卡的电脑上安装和运行阿里开源的通义千问-7B-Chat模型的过程。从创建虚拟环境到解决一系列依赖问题,如transformers、tiktoken、accelerate包的安装,再到显存不足采用4bit量化及遇到的bitsandbytes库不支持Windows的问题。经过一番努力,最终成功在12G显存的设备上运行了模型,并实现了简单的WebUI交互。文章还分享了直接体验通义千问的官方主页链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大概在两天前,阿里做了一件大事儿。

图片

就是开源了一个低配版的通义千问模型--通义千问-7B-Chat。

这应该是国内第一个大厂开源的大语言模型吧。

虽然是低配版,但是在各类测试里面都非常能打。

官方介绍:

Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。

同时官方也给出了很多测试结果。

比如中文评测。

在C-Eval验证集上得分对比:

Model

Avg. Acc.

LLaMA2-7B-Chat

31.9

LLaMA2-13B-Chat

40.6

Chinese-Alpaca-2-7B

41.3

Chinese-Alpaca-Plus-13B

43.3

Baichuan-13B-Chat

50.4

ChatGLM2-6B-Chat

50.7

InternLM-7B-Chat

53.2

Qwen-7B-Chat

54.2

如果单看这个数据。说“吊打”同级别羊驼模型一点不夸张吧。比起热门的开源模型ChatGLM2也高出了不少。

除此之外还有:

英文测评(南玻王)

代码测评(南玻王)

数学测评(南玻王)

长序列测评(南玻王)

工具使用能力测评

全方位碾压同类70亿参数模型,在即将开源的、用于评估工具使用能力的自建评测基准上,居然K·O了GPT-4 哈哈。

Model

Tool Selection (Acc.↑)

Tool Input (Rouge-L↑)

False Positive Error↓

GPT-4

95%

0.90

15%

GPT-3.5

85%

0.88

75%

Qwen-7B-Chat

99%

0.89

8.5%

我也不太懂,没研究过这个基准测试,反正就是看起来很厉害的样子。

不管怎么样,大厂开源的东西总不会太差。有可能真的是最好的小型中文大语言模型了。

阿里已经亮出态度了,接下来压力给到百度,讯飞,华为... 哈哈~~

既然阿里都开源了,那我们自然就笑纳了,接下就在本机跑一个试试。

<think>好的,我需要帮助用户了解如何在本地使用VLLM部署通义。首先,我需要查阅用户提供的引用内容,看看是否有相关的部署指南或参考资料。 用户提到了引用[2]和引用[3],其中引用[2]是关于在昇腾910B2服务器上部署Qwen2.5,而引用[3]是关于Qwen2-VL的本地部署实战。虽然VLLM未被直接提及,但VLLM通常用于加速大语言模型的推理,可能和LightLLM有关联,因为引用[1]提到了LightLLM的高效调度和性能优势。不过用户明确询的是VLLM,所以可能需要结合这些信息。 首先,我需要确认通义是否支持VLLM框架。VLLM是支持HuggingFace模型的,所以如果通义的模型权重是HuggingFace格式的,应该可以适配。然后,部署步骤通常包括环境准备、模型下载、配置调整、启动服务等环节。需要检查是否有依赖库需要安装,比如vllm、transformers等。此外,硬件方面可能需要NVIDIA GPU和CUDA支持,但用户提到的是昇腾910B2,这里可能存在兼容性题,因为VLLM主要针对CUDA优化,昇腾芯片可能需要特定的适配,但用户的题可能假设使用NVIDIA环境。 需要提醒用户注意硬件兼容性,如果使用昇腾芯片可能需要其他框架如LightLLM,如引用[1]所提。但用户明确的是VLLM,所以还是以常规NVIDIA环境为例。接下来,步骤可能包括安装VLLM,下载模型,编写启动脚本。需要参考通义的官方文档是否有VLLM的示例,或者社区中的实践案例。另外,可能需要调整参数如tensor并行度、最大token数等。 另外,用户提供的引用[3]提到Qwen2-VL在文档理解方面的优势,如果用户需要视觉语言模型,可能需要额外的步骤,但题主要聚焦于VLLM部署,可能以Qwen2.5为例。最后,生成相关题时要考虑用户可能的后续疑,比如性能优化、多GPU部署、兼容性题等。</think>以下是在本地使用VLLM部署通义的详细指南: ### 、部署准备 1. **硬件要求** - NVIDIA GPU(推荐RTX 3090/A100以上) - CUDA 11.8+环境(需与VLLM本匹配) 2. **环境依赖** ```bash conda create -n qwen_vllm python=3.9 conda activate qwen_vllm pip install vllm>=0.3.0 transformers>=4.37.0 ``` ### 二、模型获取 1. 从官方渠道下载模型权重: ```bash git clone https://www.modelscope.cn/qwen/Qwen2.5-7B-Instruct.git ``` 或通过HuggingFace下载: ```python from huggingface_hub import snapshot_download snapshot_download(repo_id="Qwen/Qwen2.5-7B-Instruct") ``` ### 三、VLLM启动配置 ```python # launch_vllm.py from vllm import LLM, SamplingParams llm = LLM( model="/path/to/Qwen2.5-7B-Instruct", tensor_parallel_size=2, # GPU数量 max_num_batched_tokens=4096, gpu_memory_utilization=0.9 ) sampling_params = SamplingParams( temperature=0.7, top_p=0.9, max_tokens=512 ) ``` ### 四、启动API服务 ```bash python -m vllm.entrypoints.openai.api_server \ --model /path/to/Qwen2.5-7B-Instruct \ --served-model-name Qwen2.5-7B \ --port 8000 \ --tensor-parallel-size 2 ``` ### 五、调用验证 ```python import openai client = openai.OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="Qwen2.5-7B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ``` ### 六、昇腾芯片注意事项 若使用昇腾910B2芯片(如引用[2]所述),需注意: 1. VLLM原生仅支持CUDA,昇腾部署需通过CANN工具链适配 2. 可考虑采用华为MindSpore框架或LightLLM(引用[1])替代方案
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI空间

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值