Transformers快速上手指南：gpt-oss-120b文本生成API实战-优快云博客

Transformers快速上手指南：gpt-oss-120b文本生成API实战

【免费下载链接】gpt-oss-120b gpt-oss-120b是OpenAI开源的高性能大模型，专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术，可单卡部署在H100 GPU上运行。它支持可调节的推理强度（低/中/高），完整思维链追溯，并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可，允许自由商用和微调，特别适合需要生产级推理能力的开发者。通过Transformers、vLLM等主流框架即可快速调用，还能在消费级硬件通过Ollama运行，为AI应用开发提供强大而灵活的基础设施。【此简介由AI生成】项目地址: https://ai.gitcode.com/hf_mirrors/openai-mirror/gpt-oss-120b

你还在为大模型部署复杂、推理速度慢而烦恼吗？本文将带你快速掌握使用Transformers框架调用gpt-oss-120b模型的方法，无需复杂配置，3步即可实现高性能文本生成。读完本文，你将学会环境搭建、基础文本生成、推理参数调优和高级功能调用，轻松将1170亿参数的强大模型集成到你的应用中。

模型简介

gpt-oss-120b是OpenAI开源的高性能大模型，专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术，可单卡部署在H100 GPU上运行。它支持可调节的推理强度（低/中/高），完整思维链追溯，并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可，允许自由商用和微调，特别适合需要生产级推理能力的开发者。

项目核心文件：

许可证信息：LICENSE
使用条款：USAGE_POLICY
模型配置：config.json、generation_config.json
分词器配置：tokenizer_config.json
对话模板：chat_template.jinja、chat_template.json

环境准备

安装依赖

首先，安装必要的依赖包，包括Transformers、PyTorch等：

pip install -U transformers kernels torch

获取模型

你可以通过以下命令从GitCode仓库克隆项目：

git clone https://gitcode.com/hf_mirrors/openai-mirror/gpt-oss-120b
cd gpt-oss-120b

模型权重文件位于项目根目录，包括多个分片文件：

基础文本生成

使用pipeline快速调用

Transformers提供了简洁的pipeline API，可以快速实现文本生成功能：

from transformers import pipeline
import torch

model_id = "./"  # 当前项目目录

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "解释什么是量子力学，要求简洁明了。"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

这段代码会自动加载模型和分词器，使用默认配置生成文本。device_map="auto"会自动选择可用的硬件设备（GPU或CPU）。

手动加载模型和分词器

如果需要更精细的控制，可以手动加载模型和分词器：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("./")
model = AutoModelForCausalLM.from_pretrained(
    "./",
    torch_dtype="auto",
    device_map="auto"
)

inputs = tokenizer("解释什么是量子力学，要求简洁明了。", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

推理参数调优

调节推理强度

gpt-oss-120b支持三种推理强度，可通过系统提示词设置：

messages = [
    {"role": "system", "content": "Reasoning: high"},  # 高推理强度
    {"role": "user", "content": "解释什么是量子力学，要求简洁明了。"},
]

Low：快速响应，适合一般对话。
Medium：平衡速度和细节。
High：深入详细的分析，适合复杂任务。

控制生成参数

通过generate方法的参数可以控制生成文本的质量和风格：

outputs = pipe(
    messages,
    max_new_tokens=256,
    temperature=0.7,  # 控制随机性，0-1之间，值越小越确定
    top_p=0.9,        #  nucleus sampling参数
    repetition_penalty=1.1  # 防止重复生成
)

更多参数说明可参考generation_config.json文件。

高级功能

对话历史管理

使用对话模板可以方便地管理多轮对话：

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("./")
chat_template = tokenizer.chat_template

messages = [
    {"role": "user", "content": "你好，你叫什么名字？"},
    {"role": "assistant", "content": "我是基于gpt-oss-120b模型的AI助手。"},
    {"role": "user", "content": "能告诉我什么是人工智能吗？"},
]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

对话模板文件：chat_template.jinja、chat_template.json

函数调用能力

gpt-oss-120b内置函数调用能力，可以通过特定格式的提示词触发：

messages = [
    {"role": "system", "content": "你可以调用工具来回答问题。可用工具：计算器。"},
    {"role": "user", "content": "3.14乘以12345等于多少？"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

模型会生成类似<|call|>{"name":"calculator","parameters":{"expression":"3.14*12345"}}<|end|>的函数调用请求，你可以解析并执行相应的函数，然后将结果返回给模型继续生成回答。

部署选项

除了直接使用Transformers，gpt-oss-120b还支持多种部署方式：

vLLM部署

vLLM是一个高性能的LLM服务库，支持PagedAttention技术，可显著提高吞吐量：

pip install vllm
python -m vllm.entrypoints.api_server --model ./ --port 8000

Ollama本地运行

对于消费级硬件，可以使用Ollama运行量化版本：

ollama pull gpt-oss:120b
ollama run gpt-oss:120b

总结与展望

本文介绍了使用Transformers框架调用gpt-oss-120b模型的基础和高级用法，包括环境搭建、文本生成、参数调优和功能扩展。通过这些方法，你可以轻松将强大的gpt-oss-120b模型集成到自己的应用中。

项目更多详细信息可参考：

README.md：项目主页和完整说明
configuration.json：模型配置详情

如果你觉得本文对你有帮助，欢迎点赞、收藏、关注，下期我们将介绍如何微调gpt-oss-120b模型以适应特定任务。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考