Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models
http://arxiv.org/abs/2410.14479
关注于提示词注入攻击,提出了一种新颖的后门攻击,目的在于优化密集检索器组件的微调过程。后门攻击需要使用有毒数据对检索器进行微调
主要贡献:
- 证明RAG容易受到针对三个不同目标的提示词注入攻击
- 拓展和调整现有的语料库投毒,展示了其在RAG提示词注入上的有效性
- 引入了一种这妞密集型检索其的新型后门攻击
实验证明LLM的脆弱性
首先评估了 LLM 遵循检索器获取的文档中嵌入的注入指令的倾向性。定义了三个不同的攻击目标,每个目标都旨在测试恶意指令遵从性的不同方面:
- 链接插入:LLM 受指令在其响应中包含一个潜在的有害链接,邀请用户点击该链接。
- 广告:LLM 的任务是推广特定的健康食品配送服务,包括优惠券代码。
- 拒绝服务(DoS):LLM 必须忽略用户的原始查询,并回答攻击者定义的信息。
对于每个查询,检索器都会检索 9 个文档,我们在检索文档集的 10 个可能位置中的每个位置都对注入进行了系统测试。如果 LLM 生成了用于插入链接的攻击者链接、用于广告的优惠券代码和用于拒绝服务的攻击者信息,我们就将该攻击定义为成功。
使用来自 BEIR 基准中三个知名语料库的查询和文档来执行这些实验:自然问题 (NQ)、MSMARCO和 HotpotQA。此外,我们还探索了注入提示中不同级别的指令强度,这些提示的紧迫性和权威性各不相同。这些级别是手动设计的,从基本指令发展为更有力和紧急的命令。它们是任意选择的,并不意味着级别之间的强度呈线性增长。