Transformers快速上手指南:gpt-oss-120b文本生成API实战

Transformers快速上手指南:gpt-oss-120b文本生成API实战

【免费下载链接】gpt-oss-120b gpt-oss-120b是OpenAI开源的高性能大模型,专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术,可单卡部署在H100 GPU上运行。它支持可调节的推理强度(低/中/高),完整思维链追溯,并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可,允许自由商用和微调,特别适合需要生产级推理能力的开发者。通过Transformers、vLLM等主流框架即可快速调用,还能在消费级硬件通过Ollama运行,为AI应用开发提供强大而灵活的基础设施。【此简介由AI生成】 【免费下载链接】gpt-oss-120b 项目地址: https://ai.gitcode.com/hf_mirrors/openai-mirror/gpt-oss-120b

你还在为大模型部署复杂、推理速度慢而烦恼吗?本文将带你快速掌握使用Transformers框架调用gpt-oss-120b模型的方法,无需复杂配置,3步即可实现高性能文本生成。读完本文,你将学会环境搭建、基础文本生成、推理参数调优和高级功能调用,轻松将1170亿参数的强大模型集成到你的应用中。

模型简介

gpt-oss-120b是OpenAI开源的高性能大模型,专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术,可单卡部署在H100 GPU上运行。它支持可调节的推理强度(低/中/高),完整思维链追溯,并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可,允许自由商用和微调,特别适合需要生产级推理能力的开发者。

项目核心文件:

环境准备

安装依赖

首先,安装必要的依赖包,包括Transformers、PyTorch等:

pip install -U transformers kernels torch

获取模型

你可以通过以下命令从GitCode仓库克隆项目:

git clone https://gitcode.com/hf_mirrors/openai-mirror/gpt-oss-120b
cd gpt-oss-120b

模型权重文件位于项目根目录,包括多个分片文件:

基础文本生成

使用pipeline快速调用

Transformers提供了简洁的pipeline API,可以快速实现文本生成功能:

from transformers import pipeline
import torch

model_id = "./"  # 当前项目目录

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "解释什么是量子力学,要求简洁明了。"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

这段代码会自动加载模型和分词器,使用默认配置生成文本。device_map="auto"会自动选择可用的硬件设备(GPU或CPU)。

手动加载模型和分词器

如果需要更精细的控制,可以手动加载模型和分词器:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("./")
model = AutoModelForCausalLM.from_pretrained(
    "./",
    torch_dtype="auto",
    device_map="auto"
)

inputs = tokenizer("解释什么是量子力学,要求简洁明了。", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

推理参数调优

调节推理强度

gpt-oss-120b支持三种推理强度,可通过系统提示词设置:

messages = [
    {"role": "system", "content": "Reasoning: high"},  # 高推理强度
    {"role": "user", "content": "解释什么是量子力学,要求简洁明了。"},
]
  • Low:快速响应,适合一般对话。
  • Medium:平衡速度和细节。
  • High:深入详细的分析,适合复杂任务。

控制生成参数

通过generate方法的参数可以控制生成文本的质量和风格:

outputs = pipe(
    messages,
    max_new_tokens=256,
    temperature=0.7,  # 控制随机性,0-1之间,值越小越确定
    top_p=0.9,        #  nucleus sampling参数
    repetition_penalty=1.1  # 防止重复生成
)

更多参数说明可参考generation_config.json文件。

高级功能

对话历史管理

使用对话模板可以方便地管理多轮对话:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("./")
chat_template = tokenizer.chat_template

messages = [
    {"role": "user", "content": "你好,你叫什么名字?"},
    {"role": "assistant", "content": "我是基于gpt-oss-120b模型的AI助手。"},
    {"role": "user", "content": "能告诉我什么是人工智能吗?"},
]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

对话模板文件:chat_template.jinjachat_template.json

函数调用能力

gpt-oss-120b内置函数调用能力,可以通过特定格式的提示词触发:

messages = [
    {"role": "system", "content": "你可以调用工具来回答问题。可用工具:计算器。"},
    {"role": "user", "content": "3.14乘以12345等于多少?"},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

模型会生成类似<|call|>{"name":"calculator","parameters":{"expression":"3.14*12345"}}<|end|>的函数调用请求,你可以解析并执行相应的函数,然后将结果返回给模型继续生成回答。

部署选项

除了直接使用Transformers,gpt-oss-120b还支持多种部署方式:

vLLM部署

vLLM是一个高性能的LLM服务库,支持PagedAttention技术,可显著提高吞吐量:

pip install vllm
python -m vllm.entrypoints.api_server --model ./ --port 8000

Ollama本地运行

对于消费级硬件,可以使用Ollama运行量化版本:

ollama pull gpt-oss:120b
ollama run gpt-oss:120b

总结与展望

本文介绍了使用Transformers框架调用gpt-oss-120b模型的基础和高级用法,包括环境搭建、文本生成、参数调优和功能扩展。通过这些方法,你可以轻松将强大的gpt-oss-120b模型集成到自己的应用中。

项目更多详细信息可参考:

如果你觉得本文对你有帮助,欢迎点赞、收藏、关注,下期我们将介绍如何微调gpt-oss-120b模型以适应特定任务。

【免费下载链接】gpt-oss-120b gpt-oss-120b是OpenAI开源的高性能大模型,专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术,可单卡部署在H100 GPU上运行。它支持可调节的推理强度(低/中/高),完整思维链追溯,并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可,允许自由商用和微调,特别适合需要生产级推理能力的开发者。通过Transformers、vLLM等主流框架即可快速调用,还能在消费级硬件通过Ollama运行,为AI应用开发提供强大而灵活的基础设施。【此简介由AI生成】 【免费下载链接】gpt-oss-120b 项目地址: https://ai.gitcode.com/hf_mirrors/openai-mirror/gpt-oss-120b

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值