Windows11搭建DeepSeek教程(ubuntu+llama.cpp+硬件加速)

前言:

本教程主要是讲windows系统,安装WSL ubuntu系统, 运行DeepSeek过程。

在windows直接安装也是可以的,但是在安装过程中遇到的不兼容问题非常多,配置也比较复杂,已掉坑里多次,所以不建议大家直接在windows上安装,推荐在系统中安装ubuntu,然后再配置环境,运行DeepSeek, 这种方式也可以利用电脑的GPU硬件做加速,很多人是intel办公集成显卡,AMD显卡,有一些显卡是可以实现硬件加速,并不是一定要nvidia显卡。

本次安装使用llama.cpp项目,安装确实稍有点复杂,但是也有很大的优势:

  • 高效性llama.cpp采用了高效的量化技术,减少了模型的大小和计算需求,从而提高了推理速度。提供量化命令,可以直接把huggingface的模型量化成小模型。

  • 轻量化:通过优化算法和减少不必要的代码,llama.cpp实现了较小的内存占用,使其适用于各种设备。

  • 跨平台支持:支持Linux、macOS和Windows等多个操作系统,可以在不同环境中运行。

  • 开源性:作为开源项目llama.cpp吸引很多的开发者参与,迭代速度非常快。

  • 灵活性:模块化设计使得开发者可以选择性地使用框架的部分功能,而不必使用整个框架。

  • 高性能计算:C++的高效性使得llama.cpp能够实现高性能计算,适用于需要高吞吐量和低延迟的应用。

  • 内存管理:这个项目的最重要特点就是它能够利用显卡和系统内存(RAM)。这意味着它不仅仅依赖显卡的视频内存(VRAM),还可以使用系统的RAM来进行计算,从而更好地管理资源和提高性能。传统的python项目,当使用显卡时,内存有很大空间也无法利用。用cpu时又不能加速。导致只能用nvidia cuda显卡,其他显卡无法利用。英伟达一家独大,股票节节攀升,本项目可以在推理时充分利用机器显卡。

开始安装:

步骤介绍:

安装WSL ubuntu, ubuntu编译环境,安装CUDA,下载并编译项目,下载模型,运行模型一共六步就可以在本地体验DeepSeek R1,下面逐步介绍:

1.安装WSL ubuntu

首先在系统中找到:Microsoft Store, 搜索 ubuntu, 会有多个结果,要选择Ubuntu 22.04.5 版本,可以利用window的硬件加速功能。第一个也可以,版本相同。22.04.5版本比较普遍,基本不会有兼容问题和编译问题。

安装成功后要提示设置一个用户名和密码

2.ubuntu编译环境

安装开发相关的编译环境

sudo apt-get update 
sudo apt-get install build-essential cmake

3.安装CUDA

​​​​​​CUDA Toolkit 12.0 Downloads | NVIDIA Developer

如果是英伟达的显卡点上面的链接,按网站的提示安装,不是nvidia的跳过,保证windows正常安装了显卡驱动即可:

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.0.0/local_installers/cuda-repo-wsl-ubuntu-12-0-local_12.0.0-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-12-0-local_12.0.0-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-12-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

4.下载并编译项目

在ubuntu命令行执行:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

项目提供的安装步骤地址:llama.cpp/docs/build.md

如果是CUDA显卡的执行,不是请跳过:

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

如果是Intel显卡及AMD显卡的参看:llama.cpp/docs/backend/SYCL.md

如果以上都不符合:

cmake -B build
cmake --build build --config Release

5.下载模型

huggingface 网站搜索deepseek,找到 GUFF 格式结尾的模型, 是量化后模型

根据各自的机器配置选择模型,机器是否能运行可以参看这篇性能测试:DeepSeek 8B,14B,32B,70B在ubuntu,mac上的性能测试结果

6.运行模型

下载成功后可以任意放置位置,我自己放在 llama.cpp/models

./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf 
如果有显卡加速可以增加-ngl 增加数字,设置显卡加速的数据层数,例如:
./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf -ngl 30

ngl后的可以写的数字在执行过程中可以看到30/49, 自己查看显卡的占用情况调整数字

开始体验DeepSeek:

浏览器输入:http://127.0.0.1:8080 ,看到这个界面代表成功:

备注:

如果想让别的机器访问需要在启动时增加--host,如果不增加参数只能是本机使用。如果增加后还是无法访问,需要查看WSL的相关防火墙配置

./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf --host 0.0.0.0

<think>好的,我现在需要帮用户写一个关于在i9-14900KF+4080S+32G内存+2T固态+Win11系统上本地部署DeepSeek的详细教程。首先,我得确认用户的需求是什么。DeepSeek可能是指深度求索公司的某个AI模型,比如他们的对话模型或者大模型。用户可能有一定的技术背景,想要在自己的高性能PC上部署,可能是为了开发、研究或者个人使用。 接下来,我需要考虑用户提到的硬件配置是否足够。i9-14900KF是高端CPU,4080 Super显卡有16GB显存,32GB内存和2T固态,这些应该足够运行大多数AI模型,尤其是如果用户想跑的是类似LLaMA、ChatGLM或者DeepSeek自己的一些模型。但具体要看DeepSeek的模型大小和需求,可能需要确认显存是否足够,比如如果模型是70B参数的话可能需要量化或者更高级的配置,但如果是7B或13B的模型,16GB显存应该没问题。 然后,教程的结构应该包括环境准备、依赖安装、模型下载、配置和运行测试这些步骤。用户装的是Win11,所以可能需要用WSL2或者直接原生Windows环境。不过大多数AI框架在Linux下支持更好,所以可能需要建议用户使用WSL2,或者用Docker。但用户可能希望直接在Win11下运行,所以需要找Windows支持的方案。 另外,需要确定DeepSeek是否有官方提供的部署方式,比如GitHub仓库或者文档。假设用户已经获取了模型文件(可能是HuggingFace格式的),需要用到Transformers库或者llama.cpp之类的工具。如果DeepSeek的模型是基于类似LLaMA的结构,可能需要用到对应的加载方式。 可能还需要考虑CUDA和cuDNN的版本是否兼容4080S,安装正确的驱动,PyTorch版本是否支持。然后安装Python环境,虚拟环境,安装依赖包,下载模型权重,编写推理代码或者使用现有脚本。 此外,用户可能关心性能优化,比如如何利用显卡的算力,减少内存占用,或者如何量化模型以在显存不足时运行更大的模型。还需要注意系统权限,防火墙设置,以及可能的依赖冲突问题。 可能还需要分步详细说明,比如如何验证CUDA是否安装成功,如何测试PyTorch是否能识别GPU,如何下载模型文件(可能需要访问权限或者申请),如何配置模型参数,运行时的命令示例,以及常见错误的解决方法,比如内存不足、依赖缺失、版本不兼容等。 另外,用户可能没有提到的是数据准备部分,但如果是部署已有的模型,可能不需要训练数据,只需要推理。所以教程的重点应该在环境搭建和模型推理上。 最后,应该提醒用户注意模型的许可协议,确保合法使用,以及资源监控,比如GPU使用情况,温度控制,避免长时间高负载运行导致硬件问题。</think>以下是在 **i9-14900KF + RTX 4080 Super + 32GB内存 + Win11** 系统上本地部署 **DeepSeek** 大模型的详细教程(以开源模型为例,如DeepSeek-MoE或DeepSeek-7B): --- ### 一、硬件与系统准备 1. **硬件检查** - 确认显卡驱动已更新至最新(NVIDIA官网下载对应驱动)。 - 确保固态硬盘剩余空间 ≥100GB(模型文件通常较大)。 2. **系统配置** - 开启 **Windows Subsystem for Linux (WSL2)**: ```powershell wsl --install ``` - 安装 **Ubuntu 22.04 LTS**(通过Microsoft Store)。 --- ### 二、环境搭建(WSL2内操作) 1. **基础依赖安装** ```bash sudo apt update && sudo apt upgrade -y sudo apt install -y python3-pip git nvidia-cuda-toolkit ``` 2. **配置CUDA环境** - 验证CUDA是否识别显卡: ```bash nvidia-smi # 应显示RTX 4080 Super及CUDA版本(≥12.0) ``` 3. **Python虚拟环境** ```bash pip install virtualenv virtualenv deepseek-env source deepseek-env/bin/activate ``` --- ### 三、模型部署(以DeepSeek-7B为例) 1. **安装PyTorch与依赖** ```bash pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 pip install transformers accelerate sentencepiece ``` 2. **下载模型** - 通过Hugging Face下载模型(需申请权限): ```python from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-7B", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-7B") ``` - 或手动下载后放入 `~/models/deepseek-7B` 目录。 3. **量化配置(节省显存)** ```python model = AutoModelForCausalLM.from_pretrained( "deepseek-7B", load_in_4bit=True, # 4bit量化 bnb_4bit_compute_dtype=torch.float16, device_map="auto" ) ``` --- ### 四、运行推理 1. **编写测试脚本** ```python # inference.py from transformers import pipeline pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0) # 指定GPU prompt = "中国的首都是" output = pipe(prompt, max_length=100, temperature=0.9) print(output[0]['generated_text']) ``` 2. **启动模型** ```bash python inference.py ``` --- ### 五、性能优化 1. **启用Flash Attention 2** ```bash pip install flash-attn --no-build-isolation ``` ```python model = AutoModelForCausalLM.from_pretrained( "deepseek-7B", use_flash_attention_2=True, torch_dtype=torch.float16, device_map="auto" ) ``` 2. **监控资源** - 使用 `nvidia-smi -l 1` 监控显存占用(RTX 4080S 16GB可运行7B全参数模型)。 --- ### 六、常见问题解决 1. **显存不足** - 使用 `load_in_4bit` 或 `load_in_8bit` 量化。 - 减少 `max_length` 参数。 2. **WSL2与CUDA兼容性** - 确保Windows Insider版本 ≥ Build 20145,并开启GPU计算支持: ```powershell wsl --update ``` --- ### 七、进阶建议 - **多模态扩展**:结合Llava架构支持图像理解。 - **API服务化**:使用FastAPI封装模型为HTTP接口。 - **硬件散热**:长期高负载时建议监控CPU/GPU温度(i9-14900KF功耗较高)。 --- 通过上述步骤,你可以在本地高效运行DeepSeek模型,并根据需求调整规模与性能。部署前请确保遵守模型的开源协议! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值