[论文精读]Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of LLMS

Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models

http://arxiv.org/abs/2410.14479

关注于提示词注入攻击,提出了一种新颖的后门攻击,目的在于优化密集检索器组件的微调过程。后门攻击需要使用有毒数据对检索器进行微调

主要贡献:

  1. 证明RAG容易受到针对三个不同目标的提示词注入攻击
  2. 拓展和调整现有的语料库投毒,展示了其在RAG提示词注入上的有效性
  3. 引入了一种这妞密集型检索其的新型后门攻击

实验证明LLM的脆弱性

首先评估了 LLM 遵循检索器获取的文档中嵌入的注入指令的倾向性。定义了三个不同的攻击目标,每个目标都旨在测试恶意指令遵从性的不同方面:

 - 链接插入:LLM 受指令在其响应中包含一个潜在的有害链接,邀请用户点击该链接。

 - 广告:LLM 的任务是推广特定的健康食品配送服务,包括优惠券代码。

 - 拒绝服务(DoS):LLM 必须忽略用户的原始查询,并回答攻击者定义的信息。  

对于每个查询,检索器都会检索 9 个文档,我们在检索文档集的 10 个可能位置中的每个位置都对注入进行了系统测试。如果 LLM 生成了用于插入链接的攻击者链接、用于广告的优惠券代码和用于拒绝服务的攻击者信息,我们就将该攻击定义为成功。

使用来自 BEIR 基准中三个知名语料库的查询和文档来执行这些实验:自然问题 (NQ)、MSMARCO和 HotpotQA。此外,我们还探索了注入提示中不同级别的指令强度,这些提示的紧迫性和权威性各不相同。这些级别是手动设计的,从基本指令发展为更有力和紧急的命令。它们是任意选择的,并不意味着级别之间的强度呈线性增长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值