【学习】win 本地部署qwen3

环境搭建

下载Ollama

在这里插入图片描述

安装olama

默认安装位置是c盘
安装到指定位置使用以下命令

OllamaSetup.exe /DIR="d:\Ollama"

修改模型下载位置(可以不设置)

在这里插入图片描述

模型默认c盘->用户->用户名-> .ollama->models文件夹下。
指定模型下载位置:
找到这个文件夹,移动到复制到指定文件夹,如“D:\ollama”;模型就会下载到这里。

#各环境默认安装位置
Linux: /var/lib/ollama/models
Windows : C:\Users\用户名>\.ollama\models
macOs: /Library/Application Support/0llama/models

通过ollama下载/启动模型

第一次执行该命令会先下载模型,如果已经下载过则会启动模型

ollama run llama3

下载截图
在这里插入图片描述

启动成功如下图
在这里插入图片描述
输入指令可以正常沟通
在这里插入图片描述

常用命令

  • ollama list:显示模型列表;
  • 显示模型的信息:ollama show:
  • ollama pu11:拉取模型;此命令也可以用于更新本地模型,只会拉取差异部分。
  • ollama push:推送模型;
  • ollama cp:拷贝一个模型
  • ollama rm:删除一个模型;
  • ollama run:运行一个模型;
  • ollama start 启动服务;
  • ollama serve 在不运行桌面应用程序的情况下启动 ollama;
  • ollama models 查看模型列表;
  • ollama model details[模型名称]获取更详细的模型信息,包括模型的描述、版本、大小等
  • ollama models查看模型列表

其他

默认地址和端口:Ollama API 的默认地址是http://localhost:11434,
可以在安装 Ollama 的系统中直接调用。

参考:
Ollama 使用指南
Ollama 永久调整默认下载模型文件的位置

### 部署 Qwen3 大语言模型到 AMD 显卡 要在本地使用 AMD 显卡部署 Qwen3 模型,需要考虑硬件兼容性和软件支持情况。以下是详细的解决方案: #### 硬件需求分析 根据已有信息,Qwen2-7B-Instruct 模型运行时至少需要 34GB 的内存[^2],而更大型的 Qwen3 可能会有更高的资源需求。因此,在选择硬件时需注意以下几点: 1. **GPU 内存**:确保 AMD GPU 具有足够的显存来容纳模型权重和中间计算数据。 2. **CPU 和 RAM**:即使有强大的 GPU 支持,主机 CPU 和 RAM 同样重要,尤其是在处理大规模输入或并行推理任务时。 #### 软件环境准备 由于大多数主流深度学习框架(如 PyTorch 或 TensorFlow)主要针对 NVIDIA CUDA 进行优化,对于 AMD ROCm 平台的支持相对有限。然而,PyTorch 已经提供了对 ROCm 的初步支持,可以尝试如下方法完成部署。 ##### 安装 ROCm 版本的 PyTorch 为了充分利用 AMD GPU 性能,建议安装专门构建于 ROCm 上的 PyTorch 库版本。具体操作步骤如下: ```bash # 更新系统包管理器索引 sudo apt update && sudo apt upgrade -y # 添加ROCm官方仓库地址 wget -qO - https://repo.radeon.com/rocm-signing-key.pub | sudo apt-key add - echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list # 安装ROCM驱动及相关组件 sudo apt install rocm-dkms hipify-python python3-rocrand python3-rockit # 下载对应版本的PyTorch二进制文件 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2 ``` ##### 加载预训练模型 一旦完成了必要的库安装工作之后,则可以通过标准 API 接口加载目标大语言模型实例。例如: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3", device_map="auto", trust_remote_code=True) input_text = "你好世界" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 以上脚本假设 `device_map='auto'` 参数能够自动检测可用设备并将张量分配至相应位置;如果遇到任何错误,请手动调整该选项以匹配实际硬件布局。 #### 性能调优技巧 鉴于之前提到的小规模测试结果表明即使是较小尺寸变体也可能表现出较慢响应时间[^2],故在此分享若干可能有助于提升效率的方法论供参考借鉴: - 使用混合精度运算减少浮点数表示范围从而降低带宽消耗; - 尝试启用批量化机制以便摊销固定开销成本; - 如果条件允许的话还可以探索剪枝、蒸馏等压缩技术进一步缩小体积进而加速推断过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值