学习DeepSeek - R1 部署篇(2)

部署运行你感兴趣的模型镜像

部署篇

1.怎样使用Ollama部署 DeepSeek-R1量化版本

1.1 什么是Ollama

  1. Ollama 是一个开源的本地大语言模型运行框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。
  2. Ollama 支持多种操作系统,包括 macOS、Windows、Linux 以及通过 Docker 容器运行。
  3. Ollama 提供对模型量化的支持,可以显著降低显存要求,使得在普通家用计算机上运行大型模型成为可能。
  4. 官方网站地址:https://ollama.com/
    在这里插入图片描述

1.2 Ollama安装与配置

安装步骤
下载安装包:官网或镜像站(推荐Windows用户使用迅雷加速)
执行安装:
Windows:双击安装包→保持默认路径
Linux:命令行安装(curl -fsSL https://ollama.com/install.sh | sh)
验证安装:终端输入ollama --version
关键配置
环境变量:

OLLAMA_HOST=0.0.0.0:11434(允许局域网访问)
OLLAMA_MODELS=E:\models(自定义模型存储路径)
GPU加速:需安装CUDA驱动(Windows)或ROCm库(AMD显卡)
在这里插入图片描述

1.3 DeepSeek-R1模型部署流程

步骤1:选择量化版本
参数含义:
1.5B/7B/14B:模型规模(B=十亿参数)
:1.5b:量化版本标识(降低显存占用)
步骤2:下载模型 DeepSeek-R1-Distill-Qwen-1.5B
命令:ollama run deepseek-r1:1.5b
步骤3:验证运行
交互测试:终端输入问题,观察响应速度
可视化界面:通过Open WebUI或ChatBox访问
在这里插入图片描述
量化方案简介
Q4_K_M是一种兼顾效率与精度的量化方案,适用于资源有限但需较高生成质量的场景。

在这里插入图片描述
Q4_K_M 是一种混合量化策略,用于在模型压缩、推理速度与精度之间取得平衡。其具体含义如下:
• Q4:主量化精度为 4 位整数(即每个权重参数用 4 个二进制位表示),相比 8 位浮点数(Q8_0)可减少约 50% 的存储和计算开销。
• K:采用 分块量化(Block-wise Quantization),将权重矩阵划分为多个小块(如 32 或 64 个元素),对每个块单独量化。这种策略能保留更多局部细节,降低量化误差。
• M:代表 中等混合精度优化级别(Medium-level Mixed Precision),在分块量化的基础上,对关键张量(如注意力层的权重)使用更高精度(如 6 位),其他部分保持 4 位。这种混合策略在速度和精度之间取得最佳平衡,是默认推荐的选择。

1.4 常用命令与API调用

核心命令

命令功能示例
ollama run启动模型对话ollama run deepseek-r1:1.5b
ollama list列出本地模型ollama list
ollama pull下载远程模型ollama pull deepseek-r1:7b
ollama create创建自定义模型(Modelfile)ollama create mymodel -f config.txt

1.5 量化参数解析与性能调试

调试工具
ollama run deepseek-r1:1.5b --verbose

怎样使用vLLM部署DeepSeek-R1量化版本

2.1 vLLM与Ollama核心差异

维度vLLMOllama
定位企业级高性能推理引擎,专注生产环境轻量级本地部署工具,适合开发测试
性能吞吐量达5000+ tokens/s,支持千级并发吞吐量约1000 tokens/s,低并发场景表现佳
硬件要求依赖NVIDIA GPU,需CUDA驱动,显存占用高支持CPU/GPU,显存占用低,适合资源受限环境
扩展性支持多机多卡分布式部署(如Kubernetes)仅支持单机部署,扩展性有限
量化支持集成GPTQ等量化技术,显存优化更高效仅支持少量量化模型,优化有限

2.2vLLM安装与配置

安装步骤
1 环境准备
· 安装CUDA 12.2+、NCCL 2.2+,推荐NVIDIA H100/A100显卡
· 创建独立Python环境:

conda create -n vllm python=3.11
conda activate vllm

2 安装vLLM

pip install --upgrade
pip pip install vllm

3 验证安装

pip show vllm # 查看版本信息

关键配置
· 环境变量:

· CUDA_VISIBLE_DEVICES=0,1,2,3(指定可用GPU) · NCCL_DEBUG=INFO(调试多卡通信)

2.3多GPU并行部署方案

2.4 DeepSeek-R1量化模型部署流程

步骤1:模型下载
量化版模型:

wget https://huggingface.co/unsloth/DeepSeek-R1-GGUF -O
deepseek-r1.gguf

完整版模型:

modelscope download --model deepseek-ai/DeepSeek-R1 --local_dir
/models

步骤2:启动vLLM服务

vllm serve deepseek-r1.gguf --max-model-len 16384
–max-num-batched-tokens 2048 --gpu-memory-utilization 0.95

参数说明:

–max-model-len:支持最大上下文长度(量化版建议16k tokens)
–quantization fp8:启用8位浮点量化加速推理

步骤3:调整显存占用

2.5 性能调优与常见问题

调优参数
吞吐量优化:

–continuous-batching:启用动态批处理
–max-num-batched-tokens 4096:增加单次批处理token数

显存优化:

–chunked-prefill:分块预填充减少内存碎片
–tensor-parallel-size 4:降低单卡显存占用

常见问题
显存不足:改用小量化版本(如int4)或减少–max-model-len
通信延迟:确保GPU间使用NVLink,禁用NCCL_NVLS_ENABLE
模型加载失败:检查模型文件完整性,确认vLLM版本兼容性

2.6 企业级应用场景

高并发API服务:支持同时处理千级请求(如实时客服)
私有化部署:数据本地化,满足金融、医疗等敏感行业需求
混合推理:结合CPU/GPU资源,降低硬件成本

3.如何使用Web界面为他人提供AI服务

3.1 服务架构核心组件

Ollama:负责模型加载与推理(支持 DeepSeek - R1 等量化模型)
Open WebUI:提供 Web 界面与交互功能(支持多模型切换、RAG 集成)
后端服务:

  • REST API 网关(处理用户请求)
  • 消息队列(保障高并发稳定性)
  • 认证服务(OAuth2/JWT 支持)

3.2 Ollama 与 Open WebUI整合流程

步骤1:环境准备
硬件要求:
4核CPU + 16GB内存(支持10人并发) NVIDIA GPU(可选, 加速推理)
软件安装:
Open WebUI 源码部署
git clone https://github.com/open-webui/open-webui
步骤2:服务启动
Ollama:
ollama serve --port 11434 # 暴露API接口
Open WebUI:
cd open-webui/backend
pip install -r requirements.txt
python start_windows.bat # Windows 启动脚本
步骤3:模型配置
· 在 Open WebUI 管理后台添加模型:
· 模型地址:http://localhost:11434
· 量化版本:推荐 deepseek-r1:1.5b(显存占用低)

3.4 知识库集成与智能问答

RAG 实现流程

  1. 网页加载:支持 PDF/TXT/JSON 格式(单文件≤50MB)
  2. 向量索引:
    ollama pull bge - m3 # 下载嵌入模型
  3. 对话增强:
    · 用户输入触发 #知识库 命令
    · 系统自动检索相关网页内容并融合生成回答
    效果对比
场景无知识库回答准确率RAG增强后准确率
通用问答62%89%
专业领域问答38%76%

3.5 性能优化与安全加固

动态批处理:
ollama serve --batch-size 32 --max-batch-delay 100ms
显存优化:
ollama run --quantization int4 # 启用4-bit量化
安全措施
1.数据加密:
传输层:TLS 1.3加密
存储层:AES-256加密敏感数据
2.访问控制:
IP白名单限制
异常行为检测(如暴力破解防护)

3.6 企业级应用案例

案例:企业客服中心
部署架构:
3台服务器 + Kubernetes 集群
每台服务器部署2个 Ollama 实例 + Open WebUI 负载均衡
效果:
并发用户数:500+
响应延迟:<200ms

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### DeepSeek-R1 部署配置教程 #### 准备工作 为了成功部署DeepSeek-R1,需确保环境满足最低硬件需求并安装必要的软件依赖。服务器应具备至少8GB RAM以及四核CPU来保障稳定运行[^1]。 #### 安装依赖库 通过命令行工具获取所需的基础包,对于基于Debian系统的Linux发行版而言,可以利用`apt-get`完成操作: ```bash sudo apt-get update && sudo apt-get install -y build-essential libssl-dev python3-pip git curl wget unzip ``` 上述指令会更新本地包索引并将编译构建所需的组件下载到操作系统内[^2]。 #### 获取源码仓库 克隆官方维护的Git版本控制系统中的项目资源至本地文件夹下以便进一步处理: ```bash git clone https://github.com/deepseek-labs/R1.git ~/deepseek-r1 cd ~/deepseek-r1 ``` 此过程将把最新的开发成果同步到用户的计算设备上用于后续设置流程[^3]。 #### 设置虚拟环境与Python模块 创建独立于全局解释器之外的工作空间,并激活该隔离区域;接着依据requirements.txt文档指引批量装载特定版本号的第三方扩展件集合: ```bash python3 -m venv .venv source .venv/bin/activate pip install --upgrade pip setuptools wheel pip install -r requirements.txt ``` 这些步骤有助于保持不同应用程序之间的兼容性和稳定性,减少潜在冲突风险的同时提高整体性能表现水平[^4]。 #### 启动服务进程 最后一步则是执行启动脚本使各项功能正常运作起来,在终端窗口输入如下所示语句即可触发后台线程持续监听网络请求端口直至手动终止程序为止: ```bash ./scripts/start.sh ``` 此时应当能够访问由DeepSeek-R1所提供的API接口地址进行交互测试验证其可用状态了[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值