大语言模型是当前人工智能领域的前沿研究方向,在安全性方面大语言模型存在一些挑战和问题。分享一篇发表于2024年ICASSP会议的论文FuzzLLM,它设计了一种模糊测试框架,利用模型的能力去测试模型对越狱攻击的防护水平。
论文摘要
大语言模型中的越狱(Jailbreak)漏洞利用精心设计的提示词引导其输出违反服务准则的内容,引起了广泛的关注。尽管模型所有者可以通过安全训练策略来防御个别越狱提示词,但这种相对被动的方法很难处理更为广泛的其他越狱攻击。
本文引入了 FuzzLLM ,一种自动化的模糊测试框架,旨在对大语言模型进行主动测试以发现其中的越狱漏洞。框架利用模板来构建完整提示词,将越狱漏洞的关键特征作为约束填入。通过组合不同的模板并改变约束和问题, FuzzLLM 可以减少工作量,实现高效测试。
1 背景介绍
大语言模型(Large Language Models,LLM)的出现以其卓越的自然语言处理能力和广阔的应用前景彻底变革了人工智能领域,商业大模型和开源大模型的发展都广受关注。与此同时也带来了许多安全问题,其中最为突出的就是越狱漏洞。越狱是指通过精心设计的输入提示词来规避大语言模型的安全措施,导致模型生成明显令人反感的内容。开源项目 Jailbreakchat 收集了成功越狱 ChatGPT 的多种提示词,但有意思的是当这类漏洞被公开讨论时,大语言模型的提供商立马会对其进行修补。
大多数开发人员会通过安全微调机制增强模型的防御能力,但由于高质量标记数据的严重稀缺,这