Transformer加速工具包：探索 vLLM、DeepSpeed 和 CTranslate2【通俗易懂，附代码】

最新推荐文章于 2025-10-13 16:08:40 发布

原创

最新推荐文章于 2025-10-13 16:08:40 发布 · 2.1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #语言模型

加速 Transformer 模型：探索 vLLM、DeepSpeed 和 CTranslate2

在我最近的学习中，简单了解了几种用于加速 Transformer 模型的工具包，包括 vLLM、DeepSpeed 和 CTranslate2。每个工具包都有其独特的优势和适用场景，做个笔记，记录一些心得和简单的使用方法（包括了NLP和CV方面的transformer）。

vLLM：高效的推理引擎

vLLM 是一个专为大规模语言模型优化的高效推理引擎。它通过优化内存管理和计算图，大幅提高了模型的推理速度。我发现 vLLM 在处理大型语言模型时非常出色。

使用 vLLM 的步骤：

安装 vLLM：
```
pip install vllm
```

加载和运行模型：

from vllm import LLModel

model = LLModel(model_name="gpt-3.5-turbo")
output = model.generate("Translate English to French: 'Hello, world!'")
print(output)

通过 vLLM，能显著减少推理时间，尤其是在处理大规模文本数据时。

DeepSpeed：全面的训练和推理优化

DeepSpeed 是微软开发的深度学习优化库，支持大规模模型的训练和推理。它提供了如 ZeRO 优化器等多种工具，大幅降低了显存占用，同时提高了计算效率。

使用 DeepSpeed 加速 ViT 模型：

安装 DeepSpeed：
```
pip install deepspeed
```
定义 ViT 模型：
```
from</
```

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoh_7

关注关注

14
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM部署之vllm vs deepspeed

xiaomu_347的博客

06-19

269

LLM 模型部署

【NLP】DeepSpeed-FastGen：通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本

sikh_0529的博客

11-10

1934

一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要，从自动驾驶到软件堆栈每一层的副驾驶，大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率，但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此，由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。

参与评论您还未登录，请先登录后发表或查看评论

大模型推理引擎vllm，sglang，transformer，exllama详细介绍和区别

最新发布

源仔

10-13

366

它是一种通过提供 “负向提示” 来约束模型输出的技术，常见于扩散模型（如 Stable Diffusion）或多模态生成模型中。加载非官方支持的模型: 当模型的架构或数据处理逻辑未内置于 transformers 库时（如社区贡献的模型或私有定制模型），需启用此参数。使用自定义模型架构:若模型定义在独立的 Python 文件中（而非 transformers 标准代码库），需通过此参数加载。当需要精确控制内存分配时（如避免多个模型竞争显存，或为其他进程预留内存），可手动定义不同设备的内存上限。

DeepSpeed、vLLM 和 torchrun

a533855的博客

10-22

3018

DeepSpeedvLLM和torchrun都是与和相关的工具或框架，但它们关注的领域和功能有所不同。

常用推理加速框架及用法(vLLM/DeepSpeed-MII/LightLLM/TensorRT-LLM)

llptyy的博客

04-27

1万+

常用推理框架及用法（vLLM/DeepSpeed-MII/LightLLM/TensorRT_LLM）

加速Transformer模型推理的利器：CTranslate2详解

sjufgwgfhoia的博客

11-15

1043

CTranslate2是一个用C++和Python编写的库，专注于高效的Transformer模型推理。它通过自定义的运行时实现了多种性能优化技术，包括权重量化、层融合和批次重排等，以提高CPU和GPU上的推理效率并减少内存使用。CTranslate2作为Transformer模型推理的高效工具，其多种优化策略显著提升了模型的推理性能和资源利用效率。对于希望在资源有限环境中部署Transformer模型的开发者，深入了解并应用CTranslate2将带来诸多益处。

[加速Transformer模型推理：深入了解CTranslate2的用法与优化技巧]

aesgga的博客

12-06

1111

通过CTranslate2，开发者可以更高效地部署和运行大规模Transformer模型。CTranslate2官方文档Transformers模型优化指南。

【Qwen2部署实战】部署高效AI模型：使用vLLM进行Qwen2-7B模型推理

寻道AI，探索AI无限可能！

07-08

9142

在当今快速发展的人工智能领域，大型语言模型（LLMs）已成为推动自然语言处理（NLP）任务的关键力量。这些模型以其强大的理解和生成文本的能力而闻名，但同时也因其对计算资源的高需求而备受关注。vLLM作为一个创新的解决方案，旨在简化LLMs的部署流程，提高效率，降低资源消耗。本文将详细介绍如何利用vLLM部署Qwen2-7B模型，并探讨其在离线推理、API服务以及多卡分布式部署中的应用。

精选资源

CTranslate2：适用于OpenNMT模型的快速推理引擎

01-30

自动CPU检测和代码分配一个二进制文件可以包含多个后端（例如Intel MKL和oneDNN）和指令集体系结构（例如AVX，AVX2），它们会在运行时根据CPU信息自动选择。平行翻译可以使用多个GPU或CPU内核并行高效地运行翻译...

DeepSpeed 和 VLLM 模型加速技术详解

kk的博客

04-25

1145

vLLM使用了PageAttention技术，对模型推理进行加速。在注意力机制中，每个token有KEY, VALUE两个张量，这两个张量在存储分配显存的时候，预留出大量的空间，导致碎片化的浪费，VLLM通过借鉴操作系统的分页思想，隔离物理和逻辑内存，中间记录处理内存地址，从而降低内存的占用，提高了batch_zize, 吞吐量。

vLLM、Megatron-LM、DeepSpeed、ONNX Runtime 的介绍

keyboard专栏

02-05

1809

llm工具的介绍

架构师炼丹炉 | 大语言模型引擎全解析：Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

csdn_xmj的博客

05-09

1852

本文将带你深入了解 Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama 这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！

【大模型推理速度对比】transformers vs vllm框架

weixin_54648747的博客

03-25

2579

【大模型推理速度对比】transformers vs vllm框架

Transformers 引擎，vLLM 引擎，Llama.cpp 引擎，SGLang 引擎，MLX 引擎

keyboard专栏

09-27

1688

1. Transformers 引擎开发者：Hugging Face 主要功能：Transformers 库提供了对多种预训练语言模型的支持，包括 BERT、GPT、T5 等。用户可以轻松加载模型进行微调或推理。特性：多任务支持：支持文本生成、文本分类、问答、翻译等多种自然语言处理任务。简单易用：API 设计友好，用户可以用几行代码完成模型的加载、推理和训练。社区支持：拥有丰富的文档和活跃的社区，提供大量的示例和教程。 2. vLLM 引擎目标：高效推理大型语言模型。特性：混合

transformers之SFT和VLLM部署Llama3-8b模型

qq_35215756的博客

04-22

4277

Llama3 微调

深度学习模型引擎大对决：Transformers vs vLLM vs llama.cpp

gs80140的专栏

02-07

3311

提供了全面的功能，适合开发和微调任务。vLLM专注于大模型的高效推理，适合实时生产环境。llama.cpp则为低资源场景提供了轻量级解决方案。通过充分了解它们的优缺点，你可以为自己的项目选择最佳工具，让 AI 应用更加高效和便捷。如果你对某款引擎有特别的兴趣，欢迎在评论区分享你的使用体验！

在Huggingface Transformers中使用DeepSpeed加速训练

CheatEngine_jaz的博客

05-07

1万+

在Huggingfac🤗Transformers中使用DeepSpeed加速库

大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！

2401_85343303的博客

03-02

1753

Transformers 引擎：NLP 领域的瑞士军刀开发者特点: Transformers 是当今最流行的开源 NLP 库，支持数百种预训练模型（如 GPT、BERT、T5 等），并提供了从模型加载、微调到推理的全套工具。优势支持 PyTorch 和 TensorFlow，兼容性强。社区活跃，模型库丰富，文档完善。适用于从研究到生产的各种 NLP 任务。适用场景: 如果你需要快速实现文本分类、生成、翻译等任务，Transformers 是你的不二之选。吸引点。