fastapi实现vllm离线推理

最新推荐文章于 2025-06-11 20:47:32 发布

运维开发那些事

最新推荐文章于 2025-06-11 20:47:32 发布

阅读量1.1k

点赞数 6

CC 4.0 BY-SA版权

文章标签： fastapi python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/litaimin/article/details/144020304

本次案例 vllm 结合 transformers 的 AutoTokenizer 来加载本地模型进行推理。支持异步流式返回生成的文本

优化后的代码示例：

import logging
from fastapi import FastAPI, HTTPException
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
import uvicorn
import asyncio

# 定义请求的数据模型
class PromptRequest(BaseModel):
    prompt: str

# 初始化 FastAPI 应用
app = FastAPI()

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# 并发请求限制
MAX_CONCURRENT_REQUESTS = 10
# 等待队列最大长度
MAX_QUEUE_SIZE = 20

# 创建信号量和队列
semaphore = asyncio.Semaphore(MAX_CONCURRENT_REQUESTS)
request_queue = asyncio.Queue(MAX_QUEUE_SIZE)

# 本地模型路径
model_path = "path_to_your_model"  # 指定本地模型文件夹路径

最低0.47元/天解锁文章

200万优质内容无限畅学

运维开发那些事

博客等级

码龄6年

82
原创

378
点赞

976
收藏

272
粉丝

关注

私信

热门文章

分类专栏

mysql 8篇
linux 21篇
数据库 1篇
网络基础 1篇
nginx 2篇
AI 1篇
k8s 6篇
docker 12篇
devops 6篇
Python 4篇
redis 2篇
监控 3篇
django 2篇
自动化 2篇
git 2篇

展开全部收起

上一篇：: k8s service如何实现流量转发

下一篇：: docker部署nacos（mysql）

最新评论

最硬核k8s网络插件详解（flannel）
lihongquan6124: 图片画得很好很生动，赞一个！
docker-compose部署redis（生产案例）
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
Coredns搭建DNS服务
juslo: × coredns.service - CoreDNS DNS server Loaded: loaded (/etc/systemd/system/coredns.service; enabled; preset: enabled) Active: failed (Result: exit-code) since Sat 2025-01-18 00:30:10 CST; 9s ago Duration: 31ms Process: 21307 ExecStart=/usr/local/bin/coredns -conf /etc/coredns/Corefile (code=exited, status=1/FAILURE) Main PID: 21307 (code=exited, status=1/FAILURE) CPU: 39ms 1月 18 00:30:10 dns4 systemd[1]: coredns.service: Scheduled restart job, restart counter is at 5. 1月 18 00:30:10 dns4 systemd[1]: coredns.service: Start request repeated too quickly. 1月 18 00:30:10 dns4 systemd[1]: coredns.service: Failed with result 'exit-code'. 1月 18 00:30:10 dns4 systemd[1]: Failed to start coredns.service - CoreDNS DNS server.
jenkins-pipeline集成sonarqube代码扫描
云教员: 能帮忙解决一下吗大佬
jenkins-pipeline集成sonarqube代码扫描
云教员: 我一直授权失败，我把sonar-admin-user换成了自己的

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。