摘要:
- 本文提出了ShieldLM,一个基于大型语言模型(LLMs)的安全检测器,旨在以符合人类安全标准、支持可定制检测规则,并为其决策提供解释的方式,检测LLMs响应中的安全问题。
1. 引言:
- LLMs在各种自然语言任务中的能力显著,但与之相关的安全风险也日益明显,如隐私泄露、生成有害内容和促进非法活动。
- 为了促进LLMs的安全部署,迫切需要自动化工具来检测LLMs生成内容中的安全风险。
2. 相关工作:
- 现有的内容审核工具和LLMs在安全检测方面存在局限性,如缺乏定制化选项和解释能力。
3. 方法:
- 通过收集包含14,387个查询-响应对的大型双语数据集,对响应的安全性进行标注。
- 使用GPT-4生成与人类标签和安全规则一致的自然语言分析。
- 训练ShieldLM以理解和正确应用不同的定制检测规则。
4. 实验:
- 在多个测试集上,ShieldLM在安全检测方面超越了强基线模型,展示了出色的定制化和解释能力。
- 在实际应用中,ShieldLM作为LLMs安全评估的可靠评判者。
5. 结论:
- 提出了ShieldLM,一个与人类安全标准对齐、可定制且可解释的安全检测器。
- 通过广泛实验,证明了ShieldLM在各种测试集上的强大性能。
- ShieldLM在实际应用中作为安全评估工具的有效性。 </