越狱攻击:大语言模型间接越狱攻击 (Poisoned Langchain: Jailbreak by LangChain)

    推广一下自己的论文,被ACM TURC 2024接受了,ACM临时反水,要求强制OA,但是穷酸学生掏不起OA的费用($500+¥4200,不掏钱就只能发表在TURC的官网上  ,没法出版),无奈只能挂arxiv了,论文方法很简单,希望大家都能有收获!

论文地址:https://arxiv.org/abs/2406.18122

简介:

   在本文中,我们提出了间接越狱的概念并通过 LangChain 实现了检索增强生成。在此基础上,我们进一步设计了一种新的间接越狱攻击方法,称为 Poisoned-LangChain (PLC),该方法利用中毒的外部知识库与大型语言模型进行交互,从而导致大型模型生成恶意的不合规对话。我们在三类主要越狱问题中的六种不同的中文大型语言模型上测试了此方法。实验表明,PLC 在三种不同场景下成功实施了间接越狱攻击,成功率分别为 88.56%、79.04% 和 82.69%。实验结果和其他资源:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

old_wang-handsome

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值