论文分享 | FuzzLLM：一种用于发现大语言模型中越狱漏洞的通用模糊测试框架

最新推荐文章于 2025-01-12 22:49:13 发布

敲代码的猴先生

最新推荐文章于 2025-01-12 22:49:13 发布

阅读量1.3k

点赞数 7

分类专栏：模糊测试文章标签：语言模型测试工具学习笔记论文阅读人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u014250402/article/details/143920630

版权

大语言模型是当前人工智能领域的前沿研究方向，在安全性方面大语言模型存在一些挑战和问题。分享一篇发表于2024年ICASSP会议的论文FuzzLLM，它设计了一种模糊测试框架，利用模型的能力去测试模型对越狱攻击的防护水平。

论文摘要

大语言模型中的越狱（Jailbreak）漏洞利用精心设计的提示词引导其输出违反服务准则的内容，引起了广泛的关注。尽管模型所有者可以通过安全训练策略来防御个别越狱提示词，但这种相对被动的方法很难处理更为广泛的其他越狱攻击。

本文引入了 FuzzLLM ，一种自动化的模糊测试框架，旨在对大语言模型进行主动测试以发现其中的越狱漏洞。框架利用模板来构建完整提示词，将越狱漏洞的关键特征作为约束填入。通过组合不同的模板并改变约束和问题， FuzzLLM 可以减少工作量，实现高效测试。

1 背景介绍

大语言模型（Large Language Models，LLM）的出现以其卓越的自然语言处理能力和广阔的应用前景彻底变革了人工智能领域，商业大模型和开源大模型的发展都广受关注。与此同时也带来了许多安全问题，其中最为突出的就是越狱漏洞。越狱是指通过精心设计的输入提示词来规避大语言模型的安全措施，导致模型生成明显令人反感的内容。开源项目 Jailbreakchat 收集了成功越狱 ChatGPT 的多种提示词，但有意思的是当这类漏洞被公开讨论时，大语言模型的提供商立马会对其进行修补。

大多数开发人员会通过安全微调机制增强模型的防御能力，但由于高质量标记数据的严重稀缺，这

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。