越狱攻击：大语言模型间接越狱攻击（Poisoned Langchain: Jailbreak by LangChain）

最新推荐文章于 2025-04-23 10:53:50 发布

old_wang-handsome

最新推荐文章于 2025-04-23 10:53:50 发布

阅读量1.4k

点赞数 35

文章标签：语言模型 langchain 人工智能自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/old_wanghandsome/article/details/140552328

版权

推广一下自己的论文，被ACM TURC 2024接受了，ACM临时反水，要求强制OA,但是穷酸学生掏不起OA的费用（$500+￥4200，不掏钱就只能发表在TURC的官网上，没法出版），无奈只能挂arxiv了，论文方法很简单，希望大家都能有收获！

论文地址:https://arxiv.org/abs/2406.18122

简介：

在本文中，我们提出了间接越狱的概念并通过 LangChain 实现了检索增强生成。在此基础上，我们进一步设计了一种新的间接越狱攻击方法，称为 Poisoned-LangChain (PLC)，该方法利用中毒的外部知识库与大型语言模型进行交互，从而导致大型模型生成恶意的不合规对话。我们在三类主要越狱问题中的六种不同的中文大型语言模型上测试了此方法。实验表明，PLC 在三种不同场景下成功实施了间接越狱攻击，成功率分别为 88.56%、79.04% 和 82.69%。实验结果和其他资源：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

old_wang-handsome 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。