vLLM
文章平均质量分 50
HyperAI超神经
链接人工智能新场景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【vLLM 学习】Reproduciblity
源码 examples/offline_inference/reproduciblity.py。推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/原创 2025-12-30 16:28:57 · 158 阅读 · 0 评论 -
【vLLM 学习】Profiling
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-12-26 18:48:21 · 187 阅读 · 0 评论 -
【vLLM 学习】vLLM TPU 分析
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →源码此脚本用于分析 vLLM 在特定预填充(prefill)或解码(decode)令牌形状下的 TPU 性能表现。注意:实际运行的服务器会混合处理多种形状的预填充和解码请求。假设您已在使用 TPU 环境(本测试基于 TPU v6e)并已按照完成 vLLM 安装。原创 2025-12-17 17:21:56 · 454 阅读 · 0 评论 -
【vLLM 学习】Prithvi Geospatial Mae
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-12-17 17:10:29 · 363 阅读 · 0 评论 -
【vLLM 学习】Prefix Caching
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-12-17 16:54:42 · 388 阅读 · 0 评论 -
【vLLM 学习】使用 OpenAI 批处理文件格式进行离线推理
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →源码本指南介绍如何使用 OpenAI 批处理文件格式执行批量推理,完整的 Batch (REST) API。原创 2025-11-07 19:14:33 · 1087 阅读 · 0 评论 -
【vLLM 学习】Neuron
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-10-10 19:49:17 · 439 阅读 · 0 评论 -
【vLLM 学习】Neuron Int8 Quantization
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-09-26 18:59:11 · 296 阅读 · 0 评论 -
【vLLM 学习】Multilora Inference
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-09-19 19:27:30 · 287 阅读 · 0 评论 -
【vLLM 学习】Mlpspeculator
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-08-27 10:15:45 · 193 阅读 · 0 评论 -
【vLLM 学习】Mistral-small
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-08-22 10:34:27 · 306 阅读 · 0 评论 -
【vLLM 学习】Lora With Quantization Inference
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-08-13 10:22:53 · 172 阅读 · 0 评论 -
【vLLM 学习】Load Sharded State
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →<https://vllm.hyper.ai/>原创 2025-08-08 12:57:07 · 5232 阅读 · 0 评论 -
【vLLM 学习】Llm Engine Example
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →<https://vllm.hyper.ai/>原创 2025-07-30 10:29:59 · 227 阅读 · 0 评论 -
【vLLM 学习】Encoder Decoder
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-07-23 10:20:02 · 231 阅读 · 0 评论 -
【vLLM 学习】Encoder Decoder Multimodal
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-07-18 11:12:39 · 302 阅读 · 0 评论 -
【vLLM 学习】Eagle
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-07-09 11:59:29 · 345 阅读 · 0 评论 -
【vLLM 学习】Distributed
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-07-02 10:30:13 · 356 阅读 · 0 评论 -
【vLLM 学习】Disaggregated Prefill
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-06-25 13:43:37 · 386 阅读 · 0 评论 -
【vLLM 学习】Disaggregated Prefill Lmcache
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-06-18 13:36:10 · 427 阅读 · 0 评论 -
【vLLM 学习】Data Parallel
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-06-12 10:16:41 · 526 阅读 · 0 评论 -
【vLLM 学习】Cpu Offload Lmcache
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-06-06 20:25:28 · 628 阅读 · 0 评论 -
【vLLM 学习】Chat With Tools
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-05-28 10:46:21 · 261 阅读 · 0 评论 -
【vLLM 学习】基础教程
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-05-14 19:16:52 · 1313 阅读 · 0 评论 -
vLLM 实战教程汇总,从环境配置到大模型部署,中文文档追踪重磅更新
10 个实用教程与模型案例快速掌握 vLLM原创 2025-05-09 16:03:29 · 2527 阅读 · 0 评论 -
【vLLM 学习】Audio Language
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。源码 examples/offline_inference/audio_language.py。*在线运行 vLLM 入门教程:零基础分步指南。更多 vLLM 中文文档及教程可访问 →。原创 2025-05-09 17:42:06 · 381 阅读 · 0 评论 -
【vLLM 学习】CPU 离线处理
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-27 17:20:38 · 494 阅读 · 0 评论 -
【vLLM 学习】Aqlm 示例
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-18 17:39:20 · 384 阅读 · 0 评论 -
【vLLM 学习】API 客户端
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-11 18:41:26 · 448 阅读 · 0 评论 -
【vLLM 学习】调试技巧
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-03 20:26:49 · 2217 阅读 · 0 评论 -
【vLLM 学习】快速入门
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →在继续进行本指南之前,请务必完成。默认情况下,vLLM 从下载模型。如果您想在以下示例中使用。原创 2025-03-28 19:28:43 · 1664 阅读 · 0 评论 -
【vLLM 学习】使用 XPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。原创 2025-03-21 14:48:06 · 617 阅读 · 0 评论 -
【vLLM 学习】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-14 16:40:36 · 701 阅读 · 0 评论 -
【vLLM 教程】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-09 23:16:37 · 619 阅读 · 0 评论 -
【vLLM 学习】使用 Neuron 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →从 vLLM 0.3.3 版本起,支持在带有 Neuron SDK 的 AWS Trainium/Inferentia 上进行模型推理和服务。目前 Neuron SDK 不支持分页注意力 (Paged Attention),但 Transformers-neuronx 支持简单的连续批处理。Neuron SDK 目前支持的数据类型为 FP16 和 BF16。原创 2025-02-28 15:47:38 · 822 阅读 · 0 评论 -
【vLLM 学习】使用 CPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初支持在 x86 CPU 平台上的基本模型推理和服务,数据类型为 FP32 和 BF16。原创 2025-02-07 14:42:04 · 4078 阅读 · 0 评论 -
【vLLM 学习】使用 OpenVINO 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →由 OpenVINO 驱动的 vLLM 支持来自 vLLM 支持的模型列表 <…/models/supported_models> 中的所有 LLM 模型,并且可以在所有 x86-64 CPU 上(至少需要 AVX2 支持)进行最佳的模型服务。原创 2025-01-24 15:53:09 · 1071 阅读 · 0 评论 -
【vLLM 学习】使用 ROCm 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 支持采用 ROCm 6.1 的 AMD GPU。原创 2025-01-17 16:43:31 · 2582 阅读 · 0 评论 -
【vLLM 学习】安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。原创 2025-01-10 14:45:04 · 3120 阅读 · 0 评论 -
【vLLM 学习】欢迎来到 vLLM!
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。vLLM 的灵活性和易用性体现在以下方面:无缝集成流行的 HuggingFace 模型具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理流式输出提供与 OpenAI 兼容的 API 服务器。原创 2025-01-03 18:29:15 · 1389 阅读 · 0 评论
分享