Windows 搭建自己的大模型-通义千问

最新推荐文章于 2025-03-11 09:51:37 发布

原创

最新推荐文章于 2025-03-11 09:51:37 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#windows

1、安装 pytorch https://pytorch.org/get-started/locally/ 点击进入官网，如图选择自己的环境得到pip安装依赖的命令：

pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

2、拉取代码并安装依赖

# 拉取代码
git clone https://github.com/QwenLM/Qwen-7B.git
# 进入代码目录
cd Qwen-7B
# 安装依赖
pip install -r requirements.txt
# 安装 web_demo 依赖
pip install -r requirements_web_demo.txt

检出的项目为启动项目：Qwen-7B，不包含预训练好的模型文件。

3、启动模型

python web_demo.py --server-port 8087 --server-name "0.0.0.0"

不出意外的话，这里要出现意外了。OSError: We couldn't connect to 'https://huggingface.co' t

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lxw1005192401

关注关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI大模型开发架构设计（3）——如何打造自己的大模型

yangwei2048的博客

01-21

3930

思考：自己处于哪种境界？

从零搭建出属于自己的大模型

qq_45179513的博客

11-01

1万+

你好！这是一个从零开始搭建本地大模型的教程（从建文件夹开始，真正的从零开始），如果你也对大模型感兴趣，那就让我带领你搭建出一个属于自己的“小助理”吧！具体步骤如下：创建文件夹存放源码和模型，在E盘中创建一个LLM文件夹用来存储源码和模型；下载源码和模型 1）如果在Anaconda Powershell Prompt中下载时，可以使用下列语句模型下载： git clone https://huggingface.co/THUDM/chatglm2-6b-32k git clone https://h

参与评论您还未登录，请先登录后发表或查看评论

Windows上的本地化部署通义千问qwen，含API调用流式和非流式调用demo

涛涛讲AI

02-02

2090

Ollama是一个强大的工具，可以帮助你在本地轻松部署和管理大语言模型，如qwen。以下是在Windows系统上使用Ollama安装和部署qwen的详细步骤。

通义千问本地部署教程 Qwen-1.5-1.8B/7B/14B Windows-详细认真版

热门推荐

一个学长的博客

02-26

7万+

实现了在Windows上部署通义千问的Qwen-7B-Chat Qwen-1.5-1.8B 模型且实现多轮对话和流式输出，目前还在更新。

怎么在Windows操作系统部署阿里开源版通义千问（Qwen2）

weixin_40588956的博客

09-02

761

怎么在Windows操作系统部署阿里开源版通义千问（Qwen2）| 原创作者/编辑：凯哥Java | 分类：人工智能学习系列教程GitHub上qwen2截图随着人工智能技术的不断进步，阿里巴巴通义千问团队近期发布了Qwen2系列开源模型，这一系列模型在多个领域展现...

精选资源

大模型部署-基于vLLM部署通义千问Qwen大语言模型-附项目源码+流程教程-优质项目实战.zip

10-15

本项目文件专注于如何部署一款名为“通义千问Qwen”的大语言模型，该模型采用vLLM（Very Large Language Model，超大型语言模型）架构。通过这份资料，开发者能够获取到完整的项目源码、详细的部署流程以及相关教程...

基于通义千问模型搭建自己的千问chat

码叔2004博客

12-27

512

随着通义千问大语言模型的发布以及API、SDK的发布，规划利用通义千问大模型开放赋能能力去搭建一个千问chat，主要分享需求、数据库设计、技术选型、业务功能设计、接口设计、代码实现、测试、发布

大语言模型部署-使用OpenVINO部署通义千问QWen2-附项目源码+流程教程-优质项目实战.zip

10-16

本项目名为“大语言模型部署-使用OpenVINO部署通义千问QWen2”，它不仅提供了一套完整的大语言模型部署流程，还附带了项目源码和详细的教程。这对于开发者而言是一个极具价值的学习资源，因为它可以让开发者快速了解...

通义千问( 五 ) 图片分析

yuanchun的知识整理

08-19

5732

通义千问VL(`Qwen-VL`)是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM），可以以图像、文本、检测框作为输入，并以文本和检测框作为输出

使用 Ollama 本地运行各种 LLM

python123456_的博客

05-31

1396

今天看看另外一个产品Ollama。Ollama 的安装非常简单，只需从官网（https://ollama.com/download）下载后解压缩，并在 Terminal 中运行脚本即可完成环境设置。我尝试运行 Llama3，虽然在运行时占用了大量电脑资源，使得其他应用运行变慢，但整体体验尚可。Ollama 支持多种大型语言模型（https://ollama.com/library）。

Windows系统在本地运行通义千问大模型配置教程（超详细）

lvaolan的博客

03-07

2938

本文将教给大家（windows用户）怎么在本地运行大模型，并且通过cmd进行交互，不用联网也可以进行询问。前排提示，文末有大模型AGI-优快云独家资料包哦！

Windows系统在本地运行通义千问大模型配置教程（超详细）_通义千问本地部署配置需求

2301_79455190的博客

03-11

4103

老母鸡教学在本地Windows 11电脑上运行本地大模型【千问】

pref_mail的博客

04-24

872

大模型最近的迭代太猛了，感觉用不了多久就可以将整个项目和需求交给它去完成，对于还没尝试在本地离线使用大模型的小伙伴们，可以跟着我的节奏在你的电脑上部署一个属于自己的大模型。为了帮助国内的小伙伴，我把需要的东西放在百度云盘了。

大模型部署手记（3）通义千问+Windows GPU

张小白

10-05

3937

大模型部署手记（3）通义千问+Windows GPU 暗影精灵7Plus Nvidia GTX 3080 Laptop

Linux Ubuntu 和 Mac ,Windows 部署离线通义千问1.8B参数 4-bit量化大模型详细教程全网唯一

三维点云技术探索

12-27

2672

代码里面调用模型的地方加一个使用GPU的参数，n_gpu_layers=30 , 这个30根据你的GPU内存大小调整， n_gpu_layers 是一个GPU部署非常重要的一步，代表大语言模型有多少层在GPU运算，如果你的显存出现 out of memory 那就减小，不报的话，就可以调整大一点，4 下面是我写的一个加载模型的代码，上面的2步都执行完了之后就可以直接运行使用了，可以在pycharm 之类的编辑器里面运行，也可以直接终端 python xxx.py 指令运行。

windows+WSL（ubuntu22）下的通义千问（7B-Chat）部署、lora微调初探

pipupip的博客

01-12

1823

在windows的linux子系统中，部署ubuntu22，并部署通义千问，尝试微调。

WSL2 配置深度学习环境 大模型微调

MoyiTech

01-25

3183

WSL是在Windows上跑的Linux子系统，但是在Windows环境下，安装deepspeed和flash-attention有很大的坑（deepspeed确实能安装成功，但是flash-attention安了好久确实也没有成功）

【免费下载】阿里巴巴通义千问大模型源码下载

gitblog_09797的博客

10-16

2387

阿里巴巴通义千问大模型源码下载【下载地址】阿里巴巴通义千问大模型源码下载阿里巴巴通义千问大模型源码下载项目地址: https://gitcode.com/open-source-toolkit/a7292 ...

通义千问(Qwen)AI大模型-系列_2

m0_60657960的博客

04-24

2152

CodeQwen1.5是Qwen1.5的代码特定版本。它是一种基于变换器的纯解码器语言模型，在大量代码数据上进行预训练。

搭建通义千问（Qwen）大语言模型

最新发布

03-17

<think>好的，我现在需要帮助用户了解如何搭建和部署通义千问Qwen大语言模型的运行环境。根据用户提供的引用内容，我需要整合现有的信息，并确保回答结构清晰，步骤详细。首先，我要确定用户的操作系统是Windows，因为引用[1]提到了Windows用户的配置教程。用户可能对本地部署和多卡部署感兴趣，因为引用[2]提到了多卡3090的部署实践。首先，我需要列出部署的基本步骤。根据引用[1]，Ollama是一个部署工具，但引用[2]提到使用Qwen的git仓库和pip依赖。可能存在不同的部署方法，需要区分单机部署和多卡加速的情况。需要确认Ollama是否支持多卡，或者是否需要其他方法。接下来，要确保每一步都清晰，比如系统要求、安装依赖、下载模型、配置环境等。需要检查是否需要CUDA、Python版本、Git等工具。引用[2]提到安装Qwen的依赖，所以可能需要使用pip安装特定的库。此外，多卡部署需要额外的配置，如使用vllm库进行加速，这可能涉及到修改启动参数。还要注意用户可能遇到的常见问题，比如模型文件下载路径是否正确，依赖冲突，显存不足等。需要给出解决建议，例如检查路径、创建虚拟环境、调整batch_size等。最后，生成相关问题，帮助用户进一步了解优化和应用场景。例如性能优化方法、硬件需求比较、与云服务的对比等。现在需要将这些思考整理成结构化的步骤，确保语言简洁，符合格式要求，使用中文，并正确引用来源。同时，检查LaTeX格式是否正确，但根据问题描述，用户的问题不涉及数学公式，可能不需要使用。不过仍需留意是否有需要公式的地方，但看起来可能不需要。</think>### 通义千问 Qwen 大模型本地部署方法 #### 一、基础环境配置 1. **系统要求** - 操作系统：Windows 10/11 或 Linux（推荐Ubuntu 22.04） - 显卡：NVIDIA GPU（显存≥16GB，72B模型需多卡部署[^2]） - 驱动：安装最新NVIDIA驱动和CUDA 12.1+ 2. **依赖安装** ```bash # 安装Python 3.8+ conda create -n qwen python=3.10 conda activate qwen # 克隆官方仓库 git clone https://github.com/QwenLM/Qwen.git cd Qwen # 安装核心依赖 pip install -r requirements.txt ``` 注：多卡部署需额外安装`vllm`库加速推理[^2]。 #### 二、模型获取与配置 1. **下载模型文件** - 从ModelScope或HuggingFace下载模型权重（如Qwen-7B/14B/72B） ```python from modelscope import snapshot_download model_dir = snapshot_download('qwen/Qwen-7B-Chat') ``` 2. **配置文件修改** 修改`config.json`中的路径配置： ```json { "model_name": "Qwen-7B", "model_path": "./models/Qwen-7B-Chat", "device_map": "auto" # 多卡时改为"cuda:0,1,2,3" } ``` #### 三、启动推理服务 1. **单卡启动** ```bash python openai_api.py --server-name 0.0.0.0 --server-port 8000 --model-path ./models/Qwen-7B-Chat ``` 2. **多卡加速（以3090四卡为例）** ```bash # 使用vllm引擎 python -m vllm.entrypoints.openai.api_server \ --model ./models/Qwen-72B-Chat \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.95 ``` 通过`--tensor-parallel-size`指定GPU数量。 #### 四、接口调用测试 ```python import openai openai.api_base = "http://localhost:8000/v1" response = openai.ChatCompletion.create( model="Qwen", messages=[{"role": "user", "content": "你好!"}] ) print(response.choices[0].message.content) ``` #### 五、常见问题解决 1. **显存不足** - 降低`max_batch_size`（默认值从8调整为4） - 启用量化：加载模型时添加`load_in_8bit=True`参数 2. **依赖冲突** 建议使用隔离环境： ```bash conda create --name qwen_env --clone base conda activate qwen_env pip install --force-reinstall -r requirements.txt ``` §§ 相关问题 §§ 1. Qwen-72B模型需要多少显存才能流畅运行？ 2. 如何通过量化技术降低显存占用？ 3. 本地部署与阿里云API调用在延迟上有何差异？ 4. 多卡部署时如何优化负载均衡？ [^1]: 单机部署参考Ollama配置方法 : 多卡加速方案来自3090四卡实测数据