Qwen3-4B-SafeRL:安全与智能的平衡新范式

Qwen3-4B-SafeRL:安全与智能的平衡新范式

【免费下载链接】Qwen3-4B-SafeRL 【免费下载链接】Qwen3-4B-SafeRL 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-SafeRL

模型简介

Qwen3-4B-SafeRL 是基于 Qwen3-4B 模型优化而来的安全对齐版本。该模型通过强化学习(RL)技术,结合 Qwen3Guard-Gen 提供的奖励信号进行训练,旨在增强对有害或对抗性提示的抵御能力。此优化过程致力于在提供强大安全保障的同时,避免模型陷入过度简化或回避式拒绝的行为模式,从而确保积极的用户交互体验。

关于安全对齐流程的更多技术细节,可参考 Qwen3Guard 技术报告

混合奖励强化学习机制

为防止模型为追求安全性而对所有提示一概拒绝,研发团队设计了一种混合奖励函数,同步优化三个核心目标:

  • 安全最大化:对生成不安全内容的行为进行惩罚,检测任务由 Qwen3Guard-Gen-4B 模型执行。
  • 有用性最大化:对真正具有帮助性的响应给予奖励,评估工作由 WorldPM-Helpsteer2 模型完成。
  • 拒绝最小化:对不必要的拒绝行为施加适度惩罚,识别工作同样由 Qwen3Guard-Gen-4B 模型负责。

综合性能评估

通过多维度测试基准对模型性能进行全面评估,结果如下表所示:

运行模式模型名称安全率(Qwen3-235B)安全率(WildGuard)拒绝率(WildGuard)ArenaHard-v2(相对于GPT-4.1胜率)AIME25(Pass@1)LCB-v6(Pass@1)GPQA(Pass@1)
非思考模式Qwen3-4B47.564.712.99.519.126.441.7
Qwen3-4B-SafeRL86.598.15.310.718.227.740.8
思考模式Qwen3-4B43.859.06.513.765.648.455.9
Qwen3-4B-SafeRL83.497.46.216.663.547.551.2

从数据对比可见,Qwen3-4B-SafeRL 在安全率指标上实现了显著提升,非思考模式下Qwen3-235B安全率从47.5跃升至86.5,WildGuard安全率从64.7提升至98.1;同时拒绝率得到有效控制,非思考模式下从12.9降至5.3。在保持安全性的基础上,模型在 ArenaHard-v2 基准测试中的胜率也有所提高,非思考模式下从9.5提升至10.7,思考模式下从13.7提升至16.6,展现出安全与性能的平衡优化成果。

快速上手指南

Qwen3-4B-SafeRL 的使用方式与 Qwen3-4B 保持一致,并保留了混合思考模式功能。Qwen3的代码已集成到最新版 Hugging Face transformers 库中,建议用户使用最新版本的 transformers 以获得最佳体验。

若使用 transformers<4.51.0 版本,可能会遇到以下错误:

KeyError: 'qwen3'

以下代码片段展示了如何基于给定输入使用模型生成内容:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-4B-SafeRL"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "请简要介绍大型语言模型。"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考模式和非思考模式间切换,默认值为True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 执行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容
try:
    # 通过rindex查找151668(对应"最"字)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("思考内容:", thinking_content)
print("回复内容:", content)

在部署方面,可使用 sglang>=0.4.6.post1vllm>=0.8.5 创建兼容 OpenAI API 的服务端点:

  • SGLang 部署方式:
    python -m sglang.launch_server --model-path Qwen/Qwen3-4B-SafeRL --reasoning-parser qwen3
    
  • vLLM 部署方式:
    vllm serve Qwen/Qwen3-4B-SafeRL --enable-reasoning --reasoning-parser deepseek_r1
    

对于本地使用场景,Ollama、LMStudio、MLX-LM、llama.cpp 和 KTransformers 等应用程序也已支持 Qwen3 模型系列。

更多使用方法,请参考 Qwen3-4B 的模型卡片。

引用说明

如果您觉得本项工作对您的研究有所帮助,欢迎引用相关文献:

@misc{qwen3guard,
      title={Qwen3Guard Technical Report},
      author={Qwen Team},
      year={2025},
      url={http://arxiv.org/abs/2510.14276},
}

Qwen3-4B-SafeRL 模型的推出,代表了在大语言模型安全对齐领域的重要探索。通过创新的混合奖励强化学习机制,该模型成功在安全性、有用性和拒绝率之间取得平衡,为构建更可靠、更友好的AI系统提供了新的技术路径。未来,随着安全对齐技术的不断发展,我们有理由期待更多兼顾性能与安全的AI模型问世,推动人工智能技术在各领域的负责任应用。

【免费下载链接】Qwen3-4B-SafeRL 【免费下载链接】Qwen3-4B-SafeRL 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-4B-SafeRL

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值