Many-shot Jailbreaking
于 2024-05-10 16:20:02 首次发布
本文探讨了针对大型语言模型的长上下文攻击,即Many-shot Jailbreaking(MSJ),在Anthropic、OpenAI和Google DeepMind的最新模型中发现了其有效性。攻击效果遵循幂律,且在多种先进模型和任务中成功。研究表明,长上下文为LLM带来了新的安全挑战。

订阅专栏 解锁全文
323

被折叠的 条评论
为什么被折叠?



