fastapi实现vllm离线推理

本次案例 vllm 结合 transformersAutoTokenizer 来加载本地模型进行推理。支持异步流式返回生成的文本

优化后的代码示例:

import logging
from fastapi import FastAPI, HTTPException
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
import uvicorn
import asyncio

# 定义请求的数据模型
class PromptRequest(BaseModel):
    prompt: str

# 初始化 FastAPI 应用
app = FastAPI()

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# 并发请求限制
MAX_CONCURRENT_REQUESTS = 10
# 等待队列最大长度
MAX_QUEUE_SIZE = 20

# 创建信号量和队列
semaphore = asyncio.Semaphore(MAX_CONCURRENT_REQUESTS)
request_queue = asyncio.Queue(MAX_QUEUE_SIZE)

# 本地模型路径
model_path = "path_to_your_model"  # 指定本地模型文件夹路径

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值