人工智能_大模型078_AI产品部署和交付08_基于VLLM部署大模型_FastAPI搭建API服务_VLLM分布式多卡推理_使用PostMan请求_VLLM源码部署---人工智能工作笔记0213

最新推荐文章于 2025-05-27 17:13:23 发布

添柴程序猿

最新推荐文章于 2025-05-27 17:13:23 发布

阅读量522

点赞数 6

CC 4.0 BY-SA版权

分类专栏：深度/机器学习&爬虫文章标签：人工智能基于vllm部署大模型 VLLM部署安装 VLLM分布式推理 VLLM源码部署

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/139109286

深度/机器学习&爬虫专栏收录该内容

168 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用VLLM进行大模型部署，通过FastAPI搭建API服务，实现基于浏览器和Postman的访问。讨论了VLLM的分布式多卡推理，利用Ray进行管理，并提供了安装和配置的详细步骤。此外，还提及了模型的源码部署和国内大模型的一致性接口设计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上一节我们部署了vllm,然后我们部署了以后,走到autoDL中,点击自定义服务,然后点击访问

就可以在浏览器中进行访问vllm了

然后同时我们还可以在命令行中进行使用

#### 运行命令

```bash
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006
```

```bash
curl https://u202774-8479-111790f4.westb.seetacloud.com:8443/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "/root/autodl-tmp/Yi-6B-Chat",
        "max_tokens":60,
        "messages": [
            {
                "role": "us

了解本专栏