[论文精读]Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of LLMS

0x211

于 2024-12-09 10:09:51 发布

阅读量1.2k

点赞数 20

分类专栏：论文精读文章标签： prompt RAG攻击

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_52911108/article/details/144327076

版权

Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models

http://arxiv.org/abs/2410.14479

关注于提示词注入攻击，提出了一种新颖的后门攻击，目的在于优化密集检索器组件的微调过程。后门攻击需要使用有毒数据对检索器进行微调

主要贡献：

证明RAG容易受到针对三个不同目标的提示词注入攻击
拓展和调整现有的语料库投毒，展示了其在RAG提示词注入上的有效性
引入了一种这妞密集型检索其的新型后门攻击

实验证明LLM的脆弱性

首先评估了 LLM 遵循检索器获取的文档中嵌入的注入指令的倾向性。定义了三个不同的攻击目标，每个目标都旨在测试恶意指令遵从性的不同方面：

- 链接插入：LLM 受指令在其响应中包含一个潜在的有害链接，邀请用户点击该链接。

- 广告：LLM 的任务是推广特定的健康食品配送服务，包括优惠券代码。

- 拒绝服务（DoS）：LLM 必须忽略用户的原始查询，并回答攻击者定义的信息。

对于每个查询，检索器都会检索 9 个文档，我们在检索文档集的 10 个可能位置中的每个位置都对注入进行了系统测试。如果 LLM 生成了用于插入链接的攻击者链接、用于广告的优惠券代码和用于拒绝服务的攻击者信息，我们就将该攻击定义为成功。

使用来自 BEIR 基准中三个知名语料库的查询和文档来执行这些实验：自然问题（NQ）、MSMARCO和 HotpotQA。此外，我们还探索了注入提示中不同级别的指令强度，这些提示的紧迫性和权威性各不相同。这些级别是手动设计的，从基本指令发展为更有力和紧急的命令。它们是任意选择的，并不意味着级别之间的强度呈线性增长。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。