
vLLM
文章平均质量分 80
HyperAI超神经
链接人工智能新场景
展开
-
【vLLM 学习】调试技巧
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-03 20:26:49 · 586 阅读 · 0 评论 -
【vLLM 学习】快速入门
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →在继续进行本指南之前,请务必完成。默认情况下,vLLM 从下载模型。如果您想在以下示例中使用。原创 2025-03-28 19:28:43 · 801 阅读 · 0 评论 -
【vLLM 学习】使用 XPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。原创 2025-03-21 14:48:06 · 344 阅读 · 0 评论 -
【vLLM 学习】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-14 16:40:36 · 523 阅读 · 0 评论 -
【vLLM 教程】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-09 23:16:37 · 431 阅读 · 0 评论 -
【vLLM 学习】使用 Neuron 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →从 vLLM 0.3.3 版本起,支持在带有 Neuron SDK 的 AWS Trainium/Inferentia 上进行模型推理和服务。目前 Neuron SDK 不支持分页注意力 (Paged Attention),但 Transformers-neuronx 支持简单的连续批处理。Neuron SDK 目前支持的数据类型为 FP16 和 BF16。原创 2025-02-28 15:47:38 · 557 阅读 · 0 评论 -
【vLLM 学习】使用 CPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初支持在 x86 CPU 平台上的基本模型推理和服务,数据类型为 FP32 和 BF16。原创 2025-02-07 14:42:04 · 1994 阅读 · 0 评论 -
【vLLM 学习】使用 OpenVINO 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →由 OpenVINO 驱动的 vLLM 支持来自 vLLM 支持的模型列表 <…/models/supported_models> 中的所有 LLM 模型,并且可以在所有 x86-64 CPU 上(至少需要 AVX2 支持)进行最佳的模型服务。原创 2025-01-24 15:53:09 · 710 阅读 · 0 评论 -
【vLLM 学习】使用 ROCm 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 支持采用 ROCm 6.1 的 AMD GPU。原创 2025-01-17 16:43:31 · 1230 阅读 · 0 评论 -
【vLLM 学习】安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。原创 2025-01-10 14:45:04 · 1852 阅读 · 0 评论 -
【vLLM 学习】欢迎来到 vLLM!
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。vLLM 的灵活性和易用性体现在以下方面:无缝集成流行的 HuggingFace 模型具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理流式输出提供与 OpenAI 兼容的 API 服务器。原创 2025-01-03 18:29:15 · 1179 阅读 · 0 评论