
[论文阅读]CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented
CtrlRAG 使用掩码语言模型 (MLM) 引入了一种扰动机制,以动态优化恶意内容以响应检索上下文的更改。实验结果表明,在情绪操纵和幻觉放大目标方面,CtrlRAG 的性能优于三种基线方法。评估了三种现有的防御机制,揭示了它们对 CtrlRAG 的有效性有限,并强调了迫切需要更强大的防御措施。先前的研究主要探索了白盒设置,其中攻击者可以访问检索器参数、LLM参数,甚至知识库内容。在实际的RAG系统中,攻击者通常仅限于查询系统并观察其响应,而无法直接访问其内部组件。
