本地部署DeepSeek-R1的三种方案

 

目录

1 LM Studio部署

2 Ollama部署

3 GPUStack部署


LM Studio部署

打开下面链接下载LM Studio,支持Windows、Mac和Linux
👾 LM Studio - Discover and run local LLMs
点击发现按钮,搜索Deepseek

图片

会看到很多搜索结果和模型详情,选择适合本地算力的模型,点击Download,关闭弹窗,回到聊天界面

图片

在上方选择要加载的模型,选中后使用默认参数,点击加载

图片

然后就可以愉快的跟本地DeepSeek聊天了

图片

可以看到输出速度和总共输出的token数量

LM Studio提供openai格式的api接口,点击聊天按钮下面的term图标

图片

可以看到支持的API路由等等信息

Ollama部署

打开下面的链接下载Ollama
Download Ollama on macOS (https://ollama.com/download)

安装ollama
安装完毕后打开cmd窗口
输入以下命令直接启动模型

ollama run deepseek-r1:1.5b --verbbos

图片

执行完命令ollama会自动去下载模型文件,可以在ollama数据库看到支持的模型

library

运行起来可以直接在命令行聊天

图片

可以看到输出的平均速度和一些基本信息

在Chrome浏览器插件PageAssist中使用

安装PageAssist插件,点击插件图标,会自动搜索本地的ollama服务

图片

在选择模型的下拉框可以看到本地ollama启动的模型,选择后就可以愉快的聊天了

图片

ollama也提供openai格式的api接口,地址是http://127.0.0.1:11434/v1

GPUStack部署

gpustack是一个Github开源项目

核心特性

  • 广泛的硬件兼容性:支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。

  • 广泛的模型支持:从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散模型、STT 与 TTS 语音模型、文本嵌入和重排序模型的广泛支持。

  • 异构 GPU 支持与扩展:轻松添加异构 GPU 资源,按需扩展算力规模。

  • 分布式推理:支持单机多卡并行和多机多卡并行推理。

  • 多推理后端支持:支持 llama-box(基于 llama.cpp 和 stable-diffusion.cpp)、vox-box 和 vLLM 作为推理后端。

  • 轻量级 Python 包:最小的依赖和操作开销。

  • OpenAI 兼容 API:提供兼容 OpenAI 标准的 API 服务。

  • 用户和 API 密钥管理:简化用户和 API 密钥的管理流程。

  • GPU 指标监控:实时监控 GPU 性能和利用率。

  • Token 使用和速率统计:有效跟踪 token 使用情况,并管理速率限制。

适合企业级的部署,项目地址是

GitHub - gpustack/gpustack: Manage GPU clusters for running AI models(https://github.com/gpustack/gpustack)

在服务器上使用docker-compose部署


version: "3.8"
services:
  gpustack:
    container_name: gpustack
    image: gpustack/gpustack:main
    shm_size: 512g
    volumes:
      - ./volumes/gpustack:/var/lib/gpustack
      - /home/user/models:/models
    ports:
      - 3000:80
    environment:
      TZ: Asia/Shanghai
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["all"]
              capabilities: [gpu]
    restart: always

networks:
  default:
    name: llm
    ipam:
      driver: default
      config:
        - subnet: 10.168.0.0/16
    docker compose up -d

    容器启动后在浏览器打开http://127.0.0.1:3000

    默认用户名是admin

    默认密码使用以下命令获取

    docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

    图片

    首页展示系统信息和使用量相关的信息

    点击模型库,搜索deepseek

    图片

    点击DeepSeek R1

    图片

    如果是量化版,使用vllama-box推理,如果是全量版本,使用vllm推理

    点击保存,再点击菜单栏的模型

    图片

    这里会列出部署的模型、类型等信息

    点击试验场进行聊天

    图片

    会展示模型使用量和输出速度

    GPUstack也支持openai格式的api,方便集成到支持openai的聊天框架,这里展示集成到Page Assist插件

    先点击API密钥,创建一个API密钥

    图片

    密钥妥善保管,只在创建时展示一次

    在PageAssist中,点击右上角的设置-OpenAI兼容API-输出GPUStack的地址和刚刚创建的api key

    图片

    点击保存,在模型管理中选中刚才部署的模型

    图片

    支持聊天模型和潜入模型,潜入模型用于知识库

    点击左上角的新聊天,然后选择刚才添加的模型

    图片

    就可以愉快的聊天了

    以上就是在本地部署DeepSeek-R1的三种方案

    引入地址

    ### DeepSeek-R1-70B 模型本地部署硬件要求 对于DeepSeek-R1-70B模型的本地部署,硬件配置的选择至关重要。考虑到该模型庞大的参数量以及复杂的运算需求,合理的硬件规划能够显著提升部署的成功率与运行效率。 #### GPU 配置建议 针对不同场景下的应用需求,GPU 的选择有所不同: - **企业级文档分析或多轮对话系统**:推荐使用单张 RTX 4090 (24GB 显存),适用于中小规模的数据处理任务;当显存量不足时可考虑升级至具备35GB以上显存的产品[^4]。 - **科研计算或金融建模**:更高级别的性能支持则需采用双卡方案——两片RTX 5090通过NVLink技术连接起来提供总计64GB显存空间,并配备至少32核心CPU处理器来加速整体流程。 - **国家级AI研究或通用人工智能探索**:面对最严苛的任务挑战,则应构建由八块NVIDIA H100 Tensor Core GPUs组成的集群环境,借助Infiniband高速网络互连协议确保节点间通信无阻塞的同时获得惊人的并行计算效能,总显存容量可达640GB级别。 #### CPU 及其他组件考量 除了强大的图形处理单元外,中央处理器(CPU)同样不可忽视。根据具体应用场景的不同,可以选择AMD EPYC系列中的高性能型号作为主机心脏部位的动力源。例如,在上述提到的最后一类极端条件下,就需要搭载拥有64个物理线程的强大服务器级芯片组以支撑起整个系统的稳定运转。 此外,充足的内存(RAM)也是保障大型语言模型顺利加载的关键因素之一。通常情况下,随着所选用GPU数量增加而相应扩大RAM规格会是比较稳妥的做法。至于存储介质方面,快速读写的SSD固态硬盘自然是首选项,特别是那些带有PCIe接口的企业级产品更能满足频繁IO操作的需求。 ```bash # 示例命令用于启动vllm服务端口监听 vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 32768 \ --enforce-eager ```
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值