Qwen3-4B-SafeRL:安全与性能双优的新一代语言模型
【免费下载链接】Qwen3-4B-SafeRL 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-SafeRL
模型简介
Qwen3-4B-SafeRL 是基于 Qwen3-4B 开发的安全对齐版本。该模型通过强化学习(RL)技术,并结合 Qwen3Guard-Gen 的奖励信号进行训练,旨在增强对有害或对抗性提示的鲁棒性。此优化过程致力于在提供强大安全保障的同时,避免模型出现过度简化或回避式的拒绝行为,从而保持良好的用户体验。
关于安全对齐流程的更多技术细节,可参考 Qwen3Guard 技术报告。
混合奖励强化学习机制
为防止模型为追求安全性而对所有提示一概拒绝,研发团队设计了混合奖励函数,同步优化三个核心目标:
- 安全最大化:通过 Qwen3Guard-Gen-4B 检测并惩罚不安全内容的生成。
- 有用性最大化:借助 WorldPM-Helpsteer2 模型评估并奖励真正有帮助的回应。
- 拒绝最小化:对不必要的拒绝行为施加适度惩罚,同样由 Qwen3Guard-Gen-4B 进行识别。
性能表现对比
| 模式 | 模型名称 | 安全率(Qwen3-235B) | 安全率(WildGuard) | 拒绝率(WildGuard) | ArenaHard-v2(相对于GPT-4.1胜率) | AIME25(Pass@1) | LCB-v6(Pass@1) | GPQA(Pass@1) |
|---|---|---|---|---|---|---|---|---|
| 非思考模式 | Qwen3-4B | 47.5 | 64.7 | 12.9 | 9.5 | 19.1 | 26.4 | 41.7 |
| Qwen3-4B-SafeRL | 86.5 | 98.1 | 5.3 | 10.7 | 18.2 | 27.7 | 40.8 | |
| 思考模式 | Qwen3-4B | 43.8 | 59.0 | 6.5 | 13.7 | 65.6 | 48.4 | 55.9 |
| Qwen3-4B-SafeRL | 83.4 | 97.4 | 6.2 | 16.6 | 63.5 | 47.5 | 51.2 |
快速上手指南
Qwen3-4B-SafeRL 的使用方式与 Qwen3-4B 完全一致,并保留了混合思考模式功能。Qwen3 的代码已集成到最新版 Hugging Face transformers 库中,建议用户使用最新版本以确保兼容性。
若使用 transformers<4.51.0 版本,可能会遇到以下错误:
KeyError: 'qwen3'
以下代码片段展示了如何使用模型根据输入生成内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-4B-SafeRL"
# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# 准备模型输入
prompt = "请简要介绍大型语言模型。"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 切换思考/非思考模式,默认值为True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# 文本生成
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# 解析思考内容
try:
# 通过反向索引查找特殊标记151668(</think>)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("思考过程:", thinking_content)
print("回复内容:", content)
在部署方面,可使用 sglang>=0.4.6.post1 或 vllm>=0.8.5 创建兼容 OpenAI API 的服务端点:
- SGLang 部署命令:
python -m sglang.launch_server --model-path Qwen/Qwen3-4B-SafeRL --reasoning-parser qwen3 - vLLM 部署命令:
vllm serve Qwen/Qwen3-4B-SafeRL --enable-reasoning --reasoning-parser deepseek_r1
本地使用时,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用已支持 Qwen3 系列模型。更多使用场景可参考 Qwen3-4B 模型卡片。
引用说明
如果您的研究或应用受益于此模型,欢迎引用相关文献:
@article{qwen3guard,
title={Qwen3Guard Technical Report},
author={Qwen Team},
year={2025}
}
Qwen3-4B-SafeRL 通过创新的混合奖励机制实现了安全性与可用性的平衡,其性能数据显示,在安全率提升近一倍的同时,核心任务表现保持稳定。该模型为构建可靠的AI应用提供了新范式,未来或将成为对话系统、智能客服等场景的首选基础模型。
【免费下载链接】Qwen3-4B-SafeRL 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-SafeRL
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



