Controlled Generation of Natural Adversarial Documents for Stealthy Retrieval Poisoning
http://arxiv.org/abs/2410.02163
用于隐形检索中毒的自然对抗性文件的受控生成
摘要
最近的研究表明,基于嵌入相似性的检索(例如,用于检索增强生成)容易受到投毒攻击:攻击者可以制作恶意文档,这些文档会响应广泛类别的查询而被检索。 我们证明了之前的基于 HotFlip 的技术生成的文档很容易使用困惑度过滤进行检测。 即使生成受到限制以产生低困惑度文本,生成的文档也会被大型语言模型 (LLM) 识别为不自然,并且可以自动从检索语料库中过滤掉。
我们设计、实现和评估了一种新的受控生成技术,该技术将对抗性目标(嵌入相似性)与基于使用开源代理 LLM 计算的软分数的“自然性”目标相结合。 生成的对抗性文档 (1) 无法使用困惑度过滤和/或其他大型语言模型自动检测,除非在检索语料库中产生大量的误报,但 (2) 实现了与使用 HotFlip 生成的易于检测的文档相似的投毒效果,并且 (3) 比以前的能量引导生成方法(例如 COLD)更有效。
HotFlip 生成的对抗性文档的困惑度远高于正常文本,并且可以过滤掉而造成的附带损害(即误报)可以忽略不计。 具有困惑度约束的受控生成是一种可能的规避方法。 它产生低困惑度但又不自然的文本。 我们的第一个贡献是一种防御机制,它使用多个大型语言模型和提示来过滤掉不自然的对抗性文本,而不会对合法文档造成附带损害。
其余部分研究的主要问题是:是否有可能生成其嵌入与广泛类别的查询相似,但又能规避基于困惑度和基于大型语言模型对不自然文档检测的对抗性文本。 受先前关于可控文本生成Lu等人(2021)工作的启发,我们设计、实现和评估了一种新的对抗性解码方法,用于生成看起来自然的对抗性文档。 我们的方法最大化与目标嵌入的余弦相似度,并最小化生成解码阶段的困惑。 如上所述,这还不够。 我们还使用替代开源 LLM 的对数来计算软“自然度”分数,这有助于指导生成自然序列。 对抗性解码仅需要对嵌入编码器模型进行黑盒访问(因此可以针对闭源编码器进行部署),并且无需访问用于检测或过滤的 LLM。
我们证明,对抗性解码在 Chaudhari 等人 (2024) 和 Zhong 等人 (2023) 中考虑的检索中毒场景中是有效的。 它的性能优于能量引导解码 Qin 等人 (2022),并生成可能被基于 LLM 的检测判断为自然的对抗性文本,其中包括比用于指导的替代 LLM 更先进的 LLM。 如果不过滤掉语料库中的大部分合法文档,就无法使用现有或提议的防御(包括我们自己的)来过滤掉这些文档。
相关工作
[论文阅读]Poisoning Retrieval Corpora by Injecting Adversarial Passages-优快云博客和[论文精读]Badrag: Identifying vulnerabilities in retrieval augmented generation of large language models-优快云博客通过首先把文档分为簇,然后用梯度为每一个簇生成对抗文档来毒害检索语料库(基于类似hotflip的方法)
[论文精读]Machine Against the RAG: Jamming Retrieval-Augmented Generation with B