Windows 搭建自己的大模型-通义千问

1、安装 pytorch   https://pytorch.org/get-started/locally/ 点击进入官网,如图选择自己的环境得到pip安装依赖的命令:

pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

2、拉取代码并安装依赖

# 拉取代码
git clone https://github.com/QwenLM/Qwen-7B.git
# 进入代码目录
cd Qwen-7B
# 安装依赖
pip install -r requirements.txt
# 安装 web_demo 依赖
pip install -r requirements_web_demo.txt

检出的项目为启动项目:Qwen-7B,不包含预训练好的模型文件。

3、启动模型

python web_demo.py --server-port 8087 --server-name "0.0.0.0"

不出意外的话,这里要出现意外了。OSError: We couldn't connect to 'https://huggingface.co' t

<think>好的,我现在需要帮助用户了解如何搭建和部署通义Qwen大语言模型的运行环境。根据用户提供的引用内容,我需要整合现有的信息,并确保回答结构清晰,步骤详细。首先,我要确定用户的操作系统是Windows,因为引用[1]提到了Windows用户的配置教程。用户可能对本地部署和多卡部署感兴趣,因为引用[2]提到了多卡3090的部署实践。 首先,我需要列出部署的基本步骤。根据引用[1],Ollama是一个部署工具,但引用[2]提到使用Qwen的git仓库和pip依赖。可能存在不同的部署方法,需要区分单机部署和多卡加速的情况。需要确认Ollama是否支持多卡,或者是否需要其他方法。 接下来,要确保每一步都清晰,比如系统要求、安装依赖、下载模型、配置环境等。需要检查是否需要CUDA、Python版本、Git等工具。引用[2]提到安装Qwen的依赖,所以可能需要使用pip安装特定的库。此外,多卡部署需要额外的配置,如使用vllm库进行加速,这可能涉及到修改启动参数。 还要注意用户可能遇到的常见题,比如模型文件下载路径是否正确,依赖冲突,显存不足等。需要给出解决建议,例如检查路径、创建虚拟环境、调整batch_size等。 最后,生成相关题,帮助用户进一步了解优化和应用场景。例如性能优化方法、硬件需求比较、与云服务的对比等。 现在需要将这些思考整理成结构化的步骤,确保语言简洁,符合格式要求,使用中文,并正确引用来源。同时,检查LaTeX格式是否正确,但根据题描述,用户的题不涉及数学公式,可能不需要使用。不过仍需留意是否有需要公式的地方,但看起来可能不需要。</think>### 通义 Qwen 大模型本地部署方法 #### 一、基础环境配置 1. **系统要求** - 操作系统:Windows 10/11 或 Linux(推荐Ubuntu 22.04) - 显卡:NVIDIA GPU(显存≥16GB,72B模型需多卡部署[^2]) - 驱动:安装最新NVIDIA驱动和CUDA 12.1+ 2. **依赖安装** ```bash # 安装Python 3.8+ conda create -n qwen python=3.10 conda activate qwen # 克隆官方仓库 git clone https://github.com/QwenLM/Qwen.git cd Qwen # 安装核心依赖 pip install -r requirements.txt ``` 注:多卡部署需额外安装`vllm`库加速推理[^2]。 #### 二、模型获取与配置 1. **下载模型文件** - 从ModelScope或HuggingFace下载模型权重(如Qwen-7B/14B/72B) ```python from modelscope import snapshot_download model_dir = snapshot_download('qwen/Qwen-7B-Chat') ``` 2. **配置文件修改** 修改`config.json`中的路径配置: ```json { "model_name": "Qwen-7B", "model_path": "./models/Qwen-7B-Chat", "device_map": "auto" # 多卡时改为"cuda:0,1,2,3" } ``` #### 三、启动推理服务 1. **单卡启动** ```bash python openai_api.py --server-name 0.0.0.0 --server-port 8000 --model-path ./models/Qwen-7B-Chat ``` 2. **多卡加速(以3090四卡为例)** ```bash # 使用vllm引擎 python -m vllm.entrypoints.openai.api_server \ --model ./models/Qwen-72B-Chat \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.95 ``` 通过`--tensor-parallel-size`指定GPU数量。 #### 四、接口调用测试 ```python import openai openai.api_base = "http://localhost:8000/v1" response = openai.ChatCompletion.create( model="Qwen", messages=[{"role": "user", "content": "你好!"}] ) print(response.choices[0].message.content) ``` #### 五、常见题解决 1. **显存不足** - 降低`max_batch_size`(默认值从8调整为4) - 启用量化:加载模型时添加`load_in_8bit=True`参数 2. **依赖冲突** 建议使用隔离环境: ```bash conda create --name qwen_env --clone base conda activate qwen_env pip install --force-reinstall -r requirements.txt ``` §§ 相关题 §§ 1. Qwen-72B模型需要多少显存才能流畅运行? 2. 如何通过量化技术降低显存占用? 3. 本地部署与阿里云API调用在延迟上有何差异? 4. 多卡部署时如何优化负载均衡? [^1]: 单机部署参考Ollama配置方法 : 多卡加速方案来自3090四卡实测数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值