最新本地部署 DeepSeekR1 蒸馏\满血量化版 + WebOpenUI 完整教程(Ubuntu\Linux系统\Ollama)

测试机为6133CPU(40Cores)+256G D4+4*4090D 24G
一种方法是部署蒸馏版Distill模型。一种是部署Huggingface上unsloth的量化版模型

Ollama及模型安装

1.下载并安装ollama

curl -fsSL https://ollama.com/install.sh | sh

如果下载不动可以试试挂梯子或者再试几次
挂代理代码:

export HTTP_PROXY="http://xxx:xxx"
export HTTPS_PROXY="http://xxx:xxx"

2. 安装Deepseek模型

这里根据自己的实际配置选择对应的模型
在这里插入图片描述
有多种可选择:https://ollama.com/library/deepseek-r1
在这里插入图片描述

我选择的是70B

ollama run deepseek-r1:70b

下载时间可能会较长

安装完成后可以使用同样的命令来启动本地对话

3.更改监听端口(如需外网访问)

vim /etc/systemd/system/ollama.service

改成这样:

即添加一个:Environment=“OLLAMA_HOST=0.0.0.0”

随后执行

sudo systemctl daemon-reload 
sudo systemctl restart ollama

如需外网访问,还需要检查防火墙是否放开11434端口。

4.API测试

本地访问127.0.0.1:11434

curl http://127.0.0.1:11434

会出现 ollama is running的提示

外网可通过IP:11434访问

量化版部署

还有一种是在671B上面量化的版本,理论上比前面的蒸馏版要好一点,但是很麻烦

1.下载

https://huggingface.co/unsloth/DeepSeek-R1-GGUF

### DeepSeek蒸馏版模型在本地PC上的部署教程 DeepSeek是一个基于大型语言模型的系列工具,其蒸馏版本旨在通过减少参数数量来提高效率和降低资源消耗。要实现DeepSeek蒸馏版模型在本地PC上的部署,可以遵循以下方法: #### 准备工作 确保安装必要的依赖项并配置环境。以下是具体操作指南: - 安装Python(建议版本3.8及以上)。可以通过官方文档确认兼容性[^2]。 - 使用`pip`或`conda`管理包。推荐使用虚拟环境隔离项目依赖。 ```bash python -m venv deepseek_env source deepseek_env/bin/activate # Linux/MacOS deepseek_env\Scripts\activate # Windows ``` #### 下载预训练模型 访问Hugging Face Models页面获取DeepSeek蒸馏版模型文件。下载完成后解压到指定目录[^1]。 ```bash mkdir models cd models wget https://huggingface.co/deepseek/lms/tree/main/distilled_models/model_name.tar.gz tar -xzvf model_name.tar.gz ``` #### 配置推理脚本 创建一个简单的推理脚本来加载模型并与之交互。下面提供了一个基本示例代码片段: ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("path/to/local/model") model = AutoModelForCausalLM.from_pretrained("path/to/local/model", device_map='auto', torch_dtype=torch.float16) def generate_text(prompt, max_length=50): inputs = tokenizer.encode(prompt, return_tensors="pt").to('cuda') outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result if __name__ == "__main__": prompt = input("Enter your query: ") response = generate_text(prompt) print(f"Response: {response}") ``` 此脚本实现了从命令行输入提示词,并返回由模型生成的结果[^3]。 #### 性能优化技巧 对于性能敏感的应用场景,考虑采用量化技术进一步压缩模型大小而不显著损失精度。例如,INT8量化能够有效节省内存占用同时提升速度。 ```bash pip install bitsandbytes ``` 修改上述代码中的模型加载部分如下所示: ```python model = AutoModelForCausalLM.from_pretrained( "path/to/local/model", load_in_8bit=True, device_map='auto' ) ``` 这一步骤有助于适应低规格硬件条件下的运行需求。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值