总目录 大模型安全相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks
对抗性攻击揭示的大型语言模型漏洞调查
https://arxiv.org/pdf/2310.10844
速览
大型语言模型中的漏洞调查:对抗性攻击揭示的安全隐患
大型语言模型(LLMs)在架构和能力上迅速发展,随着它们在复杂系统中的深度集成,审查其安全属性的紧迫性也在增加。本文调查了对LLMs进行对抗性攻击的研究,这是可信机器学习的一个子领域,结合了自然语言处理和安全的视角。
对抗性攻击概述
对抗性攻击是一种已知的威胁向量,通过精心操纵的输入,可以使机器学习模型产生错误的输出,从而被攻击者利用。这些攻击可以是有目标的,试图将模型的输出改变为特定类别或文本字符串,或者是无目标的,只是为了导致错误的