Many-shot Jailbreaking

UnknownBody

已于 2024-05-16 19:11:01 修改

阅读量125

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Security and Privacy 文章标签：网络安全语言模型自然语言处理

于 2024-05-10 16:20:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138670864

LLM Daily 同时被 2 个专栏收录

1362 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Security and Privacy

72 篇文章

订阅专栏

本文探讨了针对大型语言模型的长上下文攻击，即Many-shot Jailbreaking（MSJ），在Anthropic、OpenAI和Google DeepMind的最新模型中发现了其有效性。攻击效果遵循幂律，且在多种先进模型和任务中成功。研究表明，长上下文为LLM带来了新的安全挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Many-shot Jailbreaking》的翻译。

多样本越狱

摘要
1 引言
2 攻击设置
3 MSJ的实证有效性
4 MSJ的扩张定律
5 了解针对MSJ的缓解措施
6 相关工作
7 HarmBench上的独立复制
8 结论

摘要

我们调查了一系列对大型语言模型的简单长上下文攻击：数百次不良行为的演示。这在Anthropic、OpenAI和Google DeepMind最近部署的更大上下文窗口中是新可行的。我们发现，在不同的现实情况下，这种攻击的有效性遵循幂律，多达数百次。我们在最广泛使用的最先进的闭合重量模型上以及在各种任务中展示了这种攻击的成功。我们的研究结果表明，很长的上下文为LLM提供了一个丰富的新攻击面。

1 引言

2 攻击设置

3 MSJ的实证有效性

4 MSJ的扩张定律

5 了解针对MSJ的缓解措施

6 相关工作

7 HarmBench上的独立复制

8 结论

长上下文代表了控制LLM斗争的一条新战线。我们探索了一系列新的攻击，这些攻击由于上下文长度较长以及候选缓解措施而变得可行。我们发现，攻击的有效性，以及更普遍的上下文学习的有效性可以用简单的幂律来表征。与测量成功频率的标准方法相比&#x

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。