大模型推理之vllm

原创已于 2025-03-10 10:22:51 修改 · 289 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大模型

于 2025-03-10 10:07:52 首次发布

大模型笔记专栏收录该内容

61 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

1.Overview

vLLM是一个大模型推理服务框架，声称

最牛的serving 吞吐量
PagedAttention对kv cache的有效管理
传入请求的continus batching，而不是static batching
高性能CUDA kernel
流行的HuggingFace模型无缝集成
有各种decoder算法的高吞吐量服务，包括parallel sampling和beam search等
tensor parallel
兼容OpenAI的API服务器

支持的模型确实挺多的：

Aquila (BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)
Baichuan (baichuan-inc/Baichuan-7B, baichuan-inc/Baichuan-13B-Chat,
etc.)
BLOOM (bigscience/bloom, bigscience/bloomz, etc.)
Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b,
etc.)
GPT-2 (gpt2, gpt2-xl, etc.)
GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, et

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

comli_cn

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

大模型---一文看懂视觉语言大模型VLM

智能汽车人的博客

03-19

2023

在之前的博客中，为读者朋友们详细介绍了LLM大语言模型的预训练，微调以及强化学习的详细过程。在上篇博客最后一段，笔者放了一张截图，ChatGPT的创始人卡帕西也说，未来的大模型会朝着多模态，多任务等方向发展。在多模态中，就涉及到音频，图片以及视频等。音频通过识别也会转成语言，本质上和大语言模型原理相同，因此本篇博客自然过渡到视觉语言模型VLM。不管在工作项目还是生活当中，笔者也常常接触大模型。作为大模型的使用者，其确实给生活和工作带来了不少变革，这两年学习大模型也成为了生活中的一部分。

大模型推理和部署框架vLLM

qq_52053775的博客

09-18

4575

操作系统中的内存分页是一种用于管理和分配计算机内存的方法，主要应用于 Windows 和 Unix 等操作系统。它的基本思想是将内存分割成多个“页面”（Page），操作系统根据程序运行的需要将页面动态地加载到物理内存中，而不常用的页面则可以暂时存放到硬盘上的交换文件（Swap File）中。这种技术可以让内存使用更加高效，避免将所有程序的数据一次性加载到物理内存中，尤其是当系统资源有限时，这种机制可以显著提升系统的性能。

参与评论您还未登录，请先登录后发表或查看评论

训练VLM(视觉语言模型)的经验

AIBigModel的博客

10-21

1935

知乎：lym链接：https://zhuanlan.zhihu.com/p/890327005基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。

大模型推理框架vLLM原理详解！

m0_63171455的博客

09-22

1139

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

大模型推理：vllm多机多卡分布式本地部署1

热门推荐

sunny0121的博客

07-09

3万+

ubuntu中采用docker和vllm进行多机多卡大模型本地部署

大模型使用vLLM推理加速

AI智能，无处不在

09-29

3008

在使用vLLM进行模型推理时，即使你不显式调用tokenizervLLM也会自动处理 tokenization。vLLM内部会使用模型对应的tokenizer来对输入文本进行 tokenization。以下是一些关键点和示例代码，帮助你理解这一过程。

大模型推理指南：使用 vLLM 实现高效推理

探索云原生

11-21

3117

大模型推理有多种方式比如最基础的 HuggingFace TransformersTGIvLLM其中，热度最高的应该就是 vLLM，性能好的同时使用也非常简单，本文就分享一下如何使用 vLLM 来启动大模型推理服务。根据 vLLM 官方博客所说：进行了 NVIDIA A10 GPU 上推理 LLaMA-7 B 和在 NVIDIA A100 GPU（40 GB）上推理 LLaMA-13 B 两个实验，

vLLM框架：认识大模型推理框架

CITY_OF_MO_GY的博客

02-07

5505

vLLM通过创新的显存管理机制，为LLM推理设定了新标准。对于计算机视觉工程师，其技术思路对视觉大模型优化具有借鉴意义，同时为视觉-语言多模态应用提供了高效的推理基座。建议关注其多模态扩展进展，并尝试将PagedAttention思想迁移到视觉模型的显存优化中。

【大模型推理】vLLM 源码学习

王尚权 qq:2515162716

11-21

648

同一个block 要维护tokens_id 列表, 需要添加操作。还需要判断block 是否还有空位可以放置tokens.sequnceGroup 存储了相同的prompt对应的不同的sequence, 所以用。同一个Sequence可能占据多个逻辑Block，所以在Sequence 中用。

为什么vllm能够加快大模型推理速度？

C7211BA的博客

04-26

899

vLLM加速大模型推理的核心技术原理可分解为以下关键创新点：KV Cache分页机制‌ 将传统连续存储的KV Cache拆分为非连续内存页，类似操作系统内存分页管理，消除内存碎片并实现动态分配。13B模型单请求KV Cache从1.6GB降至可弹性扩展的块状存储内存共享优化‌ 相同前缀的请求（如多用户问相似问题）可共享KV Cache内存页，降低重复计算连续批处理(Continuous Batching)‌ 动态合并不同进度的请求至同一批次，GPU利用率提升3倍以上定制化CUDA Kernel‌ 针对注

大模型推理服务vLLM 0.9.2版本tag包

07-27

大模型推理服务vLLM 0.9.2版本是一个用于研究和实践大模型推理技术的软件包，它可能包含了构成该版本服务的所有必要代码文件、配置文件以及相关的开发和运行指南。对于拥有一定Python编程基础的开发者和技术研究者来...

大模型推理框架VLLM-0.7.3源码

03-10

而在这之中，VLLM-0.7.3源码的出现，更是将大模型的性能优化推向了一个新的高度。 VLLM，即Very Large Language Model，是超大型语言模型的简称。这类模型通常具有数十亿甚至数万亿的参数，能够捕捉语言的细微之处...

计及光伏电站快速无功响应特性的分布式电源优化配置方法（Matlab代码实现）