qwen1.5 chat vllm推理使用案例；openai api接口使用

loong_XL

已于 2024-07-01 13:43:43 修改

阅读量2.5k

点赞数 15

分类专栏：深度学习大模型AI 文章标签：人工智能 llm 大模型

于 2024-02-19 11:01:03 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42357472/article/details/136165481

版权

深度学习同时被 2 个专栏收录

328 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型AI

86 篇文章

订阅专栏

本文档介绍了如何使用vllm 0.3.0进行大模型推理，特别是在CUDA 12.0环境下。在运行中遇到了序列长度超过KV缓存限制的错误，通过调整max_model_len解决。同时，详细讲解了如何利用OpenAI API接口进行不量化测试，并给出了http接口的使用示例。在多卡运行时，由于缺少GPU P2P能力，可能会遇到错误，vllm要求至少为T系列显卡。最后，讨论了vllm与OpenAI接口在streamlit web应用中的结合案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://github.com/QwenLM/Qwen1.5
https://qwen.readthedocs.io/en/latest/quantization/awq.html
下载：https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524

下载可以参考huggingface-cli 命令下载使用：https://blog.csdn.net/weixin_42357472/article/details/132663693

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

loong_XL

关注关注

15
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

vllm推理服务兼容openai服务API

洛阳泰山的博客

03-24

5213

vLLM 提供了一个实现了 OpenAI 的 Completions 和 Chat API 的 HTTP 服务器。要调用服务器，您可以使用官方的 OpenAI Python 客户端库或其他任何 HTTP 客户端。

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（九）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

03-04

2454

qwen1.5-7b-chat集成vllm，构建与OpenAI-API兼容的API服务

参与评论您还未登录，请先登录后发表或查看评论

通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

热门推荐

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

01-10

2万+

qwen-7b-chat集成vllm，流式输出

vllm 推理qwen gguf模型使用案例；openai接口调用、requests调用

weixin_42357472的博客

08-29

1211

vllm 推理qwen gguf模型使用案例；openai接口调用、requests调用

LLM大模型推理加速 vLLM；docker推理大模型；Qwen vLLM使用案例；模型生成速度吞吐量计算

weixin_42357472的博客

09-04

4314

参考：https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档加速原理：PagedAttention，主要是利用kv缓存。

vllm0.5.0增加/api/paas/v4/chat/completions接口，供langchain4j-zhipu-ai工程调用

xinvictory的专栏

12-18

731

路径：minconda3/envs/python31013new/lib/python3.10/site-packages/vllm/entrypoints/openai。vllm发布的rest api接口中，包含/api/paas/v4/chat/completions接口。两张A6000GPU卡。

浅谈人工智能之基于HTTP方式调用本地QWen OPenAI接口（Java版）

测试人，测试魂

09-19

1426

Qwen是阿里云推出的一款超大规模语言模型，其强大的自然语言处理能力使其成为开发智能应用的热门选择。本文将指导你如何使用Java通过HTTP方式调用Qwen的OpenAI接口，实现文本生成、问答等高级功能。我们在使用spring ai的发现，java要求的版本是java 17，但是我们很多时候可能当前电脑安装的java 版本是8，所以我们可以通过http协议的方式进行大模型接口调用。

qwen2 vllm推理部署；openai接口调用、requests调用

weixin_42357472的博客

06-07

2629

参考： https://qwenlm.github.io/zh/blog/qwen2/ https://huggingface.co/Qwen下载的Qwen2-7B-Instruct使用： Qwen2-7B-Instruct比较相近模型：

vllm+openai 加速模型推理

weixin_72100405的博客

10-29

881

【代码】vllm+openai 加速模型推理。

华为MindIE兼容OpenAI接口与兼容vLLM OpenAI接口的区别（华为VLLM）

Dontla的博客

02-27

2143

等技术显著提升推理性能。其核心优势在于优化内存管理与并行计算，适用于自然语言处理（NLP）、图像生成、语音识别等场景。华为MindIE提供的两种兼容接口（兼容OpenAI接口和兼容vLLM OpenAI接口）主要在。Ascend-vLLM已用于Qwen1.5等大模型的NPU推理部署（为华为生态下的AI推理提供了高效、灵活的解决方案。）是一个针对大规模语言模型推理的高效框架，通过。华为针对昇腾NPU推出了。），并通过社区持续演进（

【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战

人工智能领域博客

06-03

9202

本文首先对Qwen1.5进行了概述，随后结合个人工作简要介绍了模型架构，最后对采用LLaMA-Factory大模型训练框架对Qwen1.5-14B-Chat的微调训练与推理进行测试。小道消息，马上就要正式发布Qwen2了，本博客也会第一时间跟进新版本的变化。

openai sdk 调用vllm

qq_28269995的博客

02-25

212

【代码】openapi sdk 调用vllm。

Qwen学习笔记3：Qwen模型调用外部API实现模型增强（openai的形式）

weixin_42118737的博客

05-15

7006

本文进一步记录了千问模型的函数调用功能使用方法，大家可以一起学习交流~

vllm启动类openai api接口的方法

02-28

<think>好的，用户想了解如何使用vLLM启动类似OpenAI的API接口。我需要先确认vLLM是否支持这个功能。根据之前的知识，vLLM确实有一个内置的OpenAI兼容API服务器。接下来，我应该分步骤说明如何安装、配置和启动服务。首先，用户可能需要安装vLLM，所以需要给出安装命令，比如pip install vllm。然后，启动API服务的基本命令，使用--served-model-name参数指定模型名称，并提示替换模型路径。可能还要提到支持的模型，比如Llama、Mistral等。接着，用户可能需要知道如何调用API。要给出示例代码，包括使用openai库的设置，替换base_url和api_key。同时，提醒用户注意模型名称是否匹配，以及启动服务时的注意事项，比如端口是否被占用，是否需要调整参数如--max-model-len。还要考虑用户可能遇到的常见问题，比如安装依赖、模型路径是否正确、端口冲突等。需要给出解决建议，比如检查CUDA版本，确保模型文件存在，使用不同端口等。最后，可以补充高级配置选项，比如调整并行 workers数量，使用量化方法等，供有需要的用户参考。整个过程要保持步骤清晰，使用代码块和项目符号列表，让用户容易跟随。同时语言要简洁明了，避免使用技术术语过多，必要时进行解释。确保覆盖所有关键点，帮助用户顺利启动和测试API服务。</think>以下是使用vLLM启动OpenAI兼容API接口的详细步骤： 📌 1. 环境准备 ```bash # 安装vLLM（推荐版本>=0.3.0） pip install vllm # 可选：安装openai库用于测试 pip install openai ``` 📌 2. 启动API服务 ```bash # 基础启动命令（需替换模型路径） python -m vllm.entrypoints.openai.api_server \ --model /path/to/your/model \ --served-model-name my-llama \ --host 0.0.0.0 \ --port 8000 ``` 🔧 常用参数说明： - `--model`：HF格式模型路径（支持Llama、Mistral、Qwen等架构） - `--served-model-name`：自定义API显示模型名称 - `--tokenizer`：单独指定分词器（默认为model路径） - `--trust-remote-code`：信任自定义模型代码 - `--max-model-len`：设置最大上下文长度 - `--gpu-memory-utilization`：显存利用率（默认0.9） 📌 3. 调用示例 ```python from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="EMPTY" ) response = client.chat.completions.create( model="my-llama", # 必须与--served-model-name一致 messages=[ {"role": "user", "content": "解释量子力学的基本原理"} ], temperature=0.7 ) print(response.choices[0].message.content) ``` ⚠️ 常见问题排查： 1. 模型加载失败 - 检查CUDA版本（要求11.8+） - 确认模型路径正确且包含所有必需文件 - 尝试添加`--download-dir`参数指定下载缓存路径 2. 端口冲突 ```bash # 指定不同端口 --port 8001 ``` 3. 显存不足 ```bash # 调整显存利用率（0-1之间） --gpu-memory-utilization 0.8 # 或启用量化 --quantization awq ``` 💡 高级配置： ```bash # 启用批处理加速（默认已开启） --enable-batch # 设置并行worker数量 --worker-use-ray --tensor-parallel-size 4 # 使用AWQ量化（需模型支持） python -m vllm.entrypoints.openai.api_server \ --model /path/to/awq-model \ --quantization awq ``` 📦 支持的API端点： - POST /v1/completions - POST /v1/chat/completions - POST /v1/models - POST /v1/embeddings 测试服务是否正常： ```bash curl http://localhost:8000/v1/models ``` 建议首次运行时添加`--log-level debug`参数查看详细日志，生产环境建议配合Nginx等工具部署反向代理。