DeepSpeed 在三台T4卡上部署deepseek-r1:32b

最新推荐文章于 2025-06-26 09:08:36 发布

MonkeyKing.sun

最新推荐文章于 2025-06-26 09:08:36 发布

阅读量4.8k

点赞数 18

CC 4.0 BY-SA版权

文章标签： deepspeed 模型

本文链接：https://blog.youkuaiyun.com/sunyuhua_keyboard/article/details/145547214

如果你只需要使用 DeepSpeed 在三台 T4 卡上部署 deepseek-r1:32b 模型进行推理，而不进行训练，可以按照以下步骤进行部署。推理部署的重点是利用多台机器和多块 GPU 来加速模型的推理过程。

1. 环境准备

首先，确保每台机器上都安装了正确的依赖项。

步骤：

安装 CUDA 和 cuDNN：
确保你在每台机器上安装了与 T4 GPU 兼容的 CUDA 和 cuDNN 版本，通常 CUDA 11.0 或更高版本。
- 安装 CUDA：NVIDIA CUDA Downloads
- 安装 cuDNN：NVIDIA cuDNN
安装 PyTorch：
根据安装的 CUDA 版本，安装合适的 PyTorch 版本。
```
pip install torch==1.10.0+cu113
```
安装 DeepSpeed：
```
pip install deepspeed
```
安装 transformers 和 datasets：
```
pip install transformers datasets
```

2. DeepSpeed 配置文件

你可以使用 DeepSpeed 的配置文件来优化推理时的性能。推理时，配置文件的重点是 FP16 加速、模型加载 和 内存优化。假设配置文件名为 deepspeed_config_inference.json，内容示例如下：

{
   
   
  "fp16": {
   
   
    "enabled": true
  },
  "optimizer": {
   
   
    "type": "Adam",
    "params":

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MonkeyKing.sun

关注关注

18
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

K8s（二）：集群部署-----＞超详细

✨ 欢迎来到【Seal ^_^ 的优快云博客】！✨

12-12

5万+

🔴 K8s（二）：集群部署-----＞超详细

云原生之容器编排实践-ruoyi-cloud项目部署到K8S：MySQL8

Heartsuit的博客

02-25

2511

本系列拿 ruoyi-cloud 项目进行练手，按照 MySQL ， Nacos ， Redis ， Nginx ， Gateway ， Auth ， System 的顺序来部署 ruoyi-cloud 微服务应用。这次我们先是借助 kompose 工具，实现对 dokcer-compose 的 yaml 到 K8S 的 yaml 的转换，经过简单的加工后即可应用部署；通过以上操作，成功将 MySQL 8.0 部署到了 K8S 集群，下一步我们安装下 Nacos v2.2.3 。

参与评论您还未登录，请先登录后发表或查看评论

本地化部署32B版本残血DeepSeek R1模型

xiangzhihong8的专栏

02-09

1万+

选择32B模型：若需平衡性能与成本，且场景偏向通用任务（如企业文档处理），本地部署是优选。选择满血版：仅限科研或需极致性能的场景，但需承担高昂硬件成本与部署复杂度。安全优化：无论选择何种版本，建议结合加密技术、分层权限管理以降低本地化风险4。通过合理配置硬件与工具（如Ollama、LM Studio），32B模型可在大多数场景下提供高效且安全的本地AI服务，但需对其性能边界有清晰认知57。

基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南

weixin_45631123的博客

02-16

5192

面对原始DeepSeek-R1-32B模型在T4显卡上出现的显存溢出问题，我们采取了一系列创新性的技术措施：知识蒸馏：通过将原本庞大的32B模型压缩至更小巧但依然高效的14B规模，确保了至少95%的原始性能得以保留。混合量化：应用GPTQ 4-bit量化技术，成功地将显存需求从32GB大幅减少到9.8GB，显著提升了模型在T4上的运行效率5。动态卸载：利用vLLM特有的PagedAttention机制，实现了显存与内存之间的智能调度，进一步缓解了显存压力。

DeepSpeed-MII 项目：持久化模型部署技术详解

最新发布

gitblog_00758的博客

06-26

319

DeepSpeed-MII 项目：持久化模型部署技术详解概述 DeepSpeed-MII 是一个专注于高效推理的开源项目，它提供了简单易用的 API 来实现大语言模型的持久化部署。本文将详细介绍如何使用 DeepSpeed-MII 创建和管理持久化模型部署，包括客户端操作、配置选项以及高级特性。持久化部署基础持久化部署的核心优势在于模型服务会持续运行，即使创建它的 Python 脚本已经退出...

部署deep seek需要什么样的硬件配置？

02-01

5万+

部署DeepSeek（或其他类似的大语言模型）的硬件配置需求取决于具体场景（如推理、微调、训练）、模型规模（参数量）、并发请求量以及性能要求。使用量化（4/8-bit）、模型并行（Tensor Parallelism）、流水线并行等技术降低资源需求。：70B模型需2-4张A100（80GB）进行推理，或使用量化技术（如GPTQ/GGUF）降低显存需求。：2-4张显存≥40GB的显卡（如NVIDIA A100 40GB/80GB、H100）：NVMe SSD ≥ 512GB（模型文件约占用20-30GB）

DeepSeek大模型一键部署解决方案：全平台多机分布式推理与国产硬件优化异构计算私有部署

风一样

02-13

6726

以上是关于如何安装 GPUStack 并在不同场景下部署 DeekSeek R1 模型的使用教程。了解更多信息。GPUStack 是一个低门槛、易上手、开箱即用的私有大模型服务平台。它可以轻松整合并利用各种异构 GPU 资源，方便快捷地为生成式 AI 应用和应用开发人员部署所需的各种 AI 模型。GPUStack 背后的研发团队具有全球顶级开源项目经验，项目的功能设计和文档都很完整，团队自项目初期便面向全球用户，当前已有大量国内外开源用户。团队致力于将国产开源项目推广到全球，值得关注。。

【AIGC魔童】DeepSeek v3推理部署：DeepSeek-Infer/ModelScope/ollama

LeeZhao的博客

02-07

2424

DeepSeek v3推理部署：DeepSeek-Infer/ModelScope/ollama

DeepSeek-多机多卡集群部署

03-12

2231

前面我们无论是直接部署，还是容器部署都还是单机的模型，受单机GPU限制，并不能跑比较大的模型，今天我们将用多台机器组成一个集群来跑一个更大的模型。

deep-seek大模型在本地安装、部署、使用的教程

Zero_pl的博客

02-23

1027

通过以上步骤，您可以在本地笔记本电脑上成功安装、部署并使用 DeepSeek 大模型。Ollama 是一个支持本地运行 AI 模型的开源工具，适用于 Windows、Mac 和 Linux 系统。从 NVIDIA 官方网站下载并安装适用于您操作系统的 CUDA Toolkit 和 cuDNN 库。video本地部署Deepseek保姆级教程来啦！启动后，模型将进入交互式命令行界面，您可以通过输入指令与模型进行交互。下载并安装适用于您操作系统的版本。如果需要加速模型下载，可以使用。

K8s（二十一）：在 Kubernetes 集群中部署 MySQL8.0 高可用集群（1主2从）

✨ 欢迎来到【Seal ^_^ 的优快云博客】！✨

04-16

2万+

🔴 K8s（二十一）：在 Kubernetes 集群中部署 MySQL8.0 高可用集群（1主2从）

ChatGPT开源代码，可以快速实现本地部署

04-18

最近有个超级好玩的Github开源代码分享给大家，可以实现直接在本地电脑上运行GPT，且对本地机器性能没有太高的要求。改开源项目可以实现给机器人对话，获得想要的内容，亲测好用！ChatGPT是一个自然语言处理技术，它的功能非常强大，可以用于许多不同的应用场景。首先，ChatGPT可以用于创建与用户进行对话的聊天机器人。它可以理解用户的输入，并根据预先训练的模型生成自然流畅的回答。其次，ChatGPT可以用于创建与用户进行对话的虚拟代理或虚拟化身。它可以根据用户的输入生成自然语言响应，并可以进行微调以回答特定类型的问题，例如与特定领域或主题相关的问题。此外，ChatGPT还可以用于创建文本生成工具。它可以根据输入数据生成类似人类的文本响应，并且具有很高的准确性和可读性。总的来说，ChatGPT是一个功能强大的自然语言处理技术，可以用于许多不同的应用场景，例如智能客服、智能助手、自然语言生成等。博客链接：https://blog.youkuaiyun.com/weixin_43734080/article/details/129971702?spm=1001.2014.3001.5501

Zookeeper三台服务器三节点集群部署（docker-compose方式）

xiaozhidepikaqiu的博客

04-15

1040

服务器：3 台服务器，IP 地址分别为 `10.10.10.11`、`10.10.10.12`、`10.10.10.13`。1. **配置文件一致性**：确保每台服务器的 `zoo.cfg` 文件内容一致，特别是 `server.x` 配置。2. **数据持久化**：`data` 和 `datalog` 目录用于持久化数据，确保数据安全。3. **防火墙**：确保三台服务器之间的 `2888` 和 `3888` 端口可以互相访问。│ └── zoo.cfg # Zookeeper 配置文件。

【复现DeepSeek-R1之Open R1实战】系列8：混合精度训练、DeepSpeed、vLLM和LightEval介绍

https://github.com/Donvink，专注于计算机视觉、目标检测、目标跟踪等方向

02-20

1735

本文继续深入了解Open R1项目中用到的相关技术，包括训练模型用到的混合精度训练（bfloat16）、DeepSpeed、vLLM，以及评估模型用到的LightEval。

DeepSpeed实战系列篇1：RTX 3090服务器部署及训练过程详解

qq_18256855的博客

07-18

3494

本文主要详细概述了DeepSpeed服务器部署及训练的全过程

DeepSpeed系列 -- 1 - 初识DeepSpeed

大海中的游鱼

12-18

5251

什么是DeepSpeed，它解决了什么痛点？

DeepSpeed使用指南(简略版)