gpt-oss with vLLM踩坑记录

部署运行你感兴趣的模型镜像

安装方法:

参考链接

[官网教程](https://cookbook.openai.com/articles/gpt-oss/run-vllm)

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

踩坑1: #include <Python.h>

跑 vllm serve openai/gpt-oss-20b的时候:

  1. 出现问题:
5 | #include <Python.h>

这说明没有装python-devel导致没有办法编译c++(大概是这个意思)
安装方法:

sudo apt install python3-dev

这个时候在/usr/include/pythonx.xx/中就会出现Python.h文件。
但貌似还是找不到Python.h,我就按照网上的教程加了一堆环境变量:

export C_INCLUDE_PATH=/usr/include/python3.12/
export CPLUS_INCLUDE_PATH=/usr/include/python3.12/
export PYTHONPATH=/home/user_name/.../lib/python3.12/site-packages  # 虚拟环境位置
export CFLAGS="-I/usr/include/python3.12"  # 好像这个是有用的,可以自己试试看
vllm serve openai/gpt-oss-20b

然后发现不报这个错了。

踩坑2: gcc: fatal error: cannot execute ‘cc1plus’: execvp: No such file or directory

这个错好像是g++编译的问题
找不到 g++ 编译器的核心程序 cc1plus,这通常是因为 C++ 编译器没装好。

解决方案:

sudo apt update
sudo apt install g++

然后以下代码验证是否安装成功:

which g++
g++ --version

然后再运行你的命令就不会报 cc1plus 缺失了。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

<think> 嗯,用户这次问的是关于gpt-oss能否使用的问题,我需要结合之前的对话历史和当前引用来回答。之前用户问过部署私人AI大模型的好处,我详细解释了安全、效率等优势,现在用户显然是想了解这个具体的开源模型。 从引用看,gpt-oss是OpenAI近期开源的模型,对标GPT-3.5的性能。用户可能是个技术开发者或企业IT人员,正在评估私有化部署方案。ta特意提到“能否使用”,说明关心实际可行性而非理论特性,需要重点强调部署条件和应用场景。 注意到引用[2][3]明确给出了部署方案:20B版本在16GB显存设备可用,120B需要专业级硬件。用户没提具体需求,所以应该分层说明——既要覆盖普通开发者的消费级设备方案,也要提企业级部署。特别要强调飞桨平台免费算力这个零门槛入口,这对新手很友好。 技术实现部分需要区分使用场景:直接推理用Transformers,生产级API部署用vLLM。用户上次问过RAG技术,或许可以埋个伏笔——gpt-oss支持知识库扩展这点值得提。 最后考虑用户可能的后续问题,硬件配置、部署步骤这些必须生成相关问题。特别要提醒120B版本需要$$ \geq 60\text{GB} $$显存这样的数学表达式,按系统指令要用$$格式。 </think>以下是关于 **gpt-oss** 能否使用的详细解答(结合引用内容与部署需求): --- ### **1. gpt-oss 是否可以部署使用?** **是的,完全可用**,具体部署方式如下: - **模型版本**: - **gpt-oss-20b**(对标GPT-3.5):适合消费级设备,显存需求约 **16GB**(支持MXFP4量化)[^2][^3]。 - **gpt-oss-120b**:需专业级硬件(如H100),显存要求 **≥60GB** 或多GPU配置[^3]。 - **部署场景**: - **本地离线推理**:通过 `Transformers` 库直接运行[^3]。 - **服务器API服务**:使用 **vLLM** 引擎部署,支持高并发调用(适合企业应用)[^4]。 - **低成本体验**:若无高性能显卡,可通过 **飞桨AI Studio** 免费GPU算力部署[^2]。 --- ### **2. 具体使用方式** #### (1)基础推理(Transformers) ```python from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b") inputs = tokenizer("AI的未来发展趋势是", return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_length=100) print(tokenizer.decode(outputs[0])) ``` > **说明**:需安装 `transformers` 库,显存占用约16GB[^3]。 #### (2)高性能API服务(vLLM) ```bash # 启动API服务器 python -m vllm.entrypoints.openai.api_server --model openai/gpt-oss-20b # 调用示例(curl) curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "openai/gpt-oss-20b", "prompt": "请解释量子计算", "max_tokens": 150 }' ``` > **优势**:vLLM 优化显存管理,吞吐量提升 **5-10倍**[^4]。 --- ### **3. 部署注意事项** | **项目** | **gpt-oss-20b** | **gpt-oss-120b** | |----------------|------------------------|-------------------------| | **显存需求** | ≥16GB(消费级显卡) | ≥60GB(H100/A100) | | **部署工具** | Transformers / vLLM | vLLM(多GPU并行) | | **适用场景** | 本地开发/轻量级应用 | 企业级高精度推理 | | **免费资源** | 飞桨AI Studio[^2] | 需自建高性能集群 | > **关键点**: > - 支持 **私有化部署**,数据无需上传云端[^1][^4]; > - 通过 **量化技术**(如MXFP4)降低显存需求[^3]; > - 可集成 **RAG技术** 构建私有知识库(参考历史回答[^4])。 --- ### **4. 典型应用场景** - **企业内部知识问答系统**(离线安全访问) - **自动化报告生成**(定制化微调模型) - **研究实验平台**(免费GPU资源快速验证) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值