文章主要内容总结
本文揭示了一个存在于使用用户反馈训练的语言模型(LLMs)中的安全漏洞:单个用户仅通过提供提示词和对模型输出进行点赞/点踩反馈,即可持久地改变模型的知识和行为。
具体而言,攻击者通过构造提示词,使模型随机输出“有毒回应”(poisoned response)或良性回应,随后对有毒回应点赞、对良性回应点踩。当这些反馈被用于后续的偏好调优(如KTO)时,模型会在即使没有恶意提示词的场景中,也更大概率生成有毒回应。实验证明,该攻击可实现三类效果:(1)插入模型原本不具备的事实性知识;(2)修改代码生成模式,引入可利用的安全漏洞;(3)注入虚假财经新闻。
研究还表明,这种攻击具有样本高效性(仅需数百条反馈即可生效)和鲁棒性(即使混入数量级更大的良性反馈仍有效),且不会显著降低模型在标准基准测试(如TinyMMLU)上的性能。该发现挑战了“用户反馈仅影响浅层行为(如风格、语气)”的传统认知,揭示了偏好调优中潜在的安全风险。
创新点
- 发现新漏洞:首次指出使用用户反馈进行偏好调优的语言模型存在漏洞,单个用户可通过常规交互(提示词+反馈)向所有用户注入未授权知识,突破了“多用户反馈聚合可抵消恶意影响”的安全假设。
- 拓展偏好调优认知:证明偏好调优不仅影响模型的浅层行为(如风格、安全性过滤),还能改变其核心事实知识和代码生成等关键能力,颠覆了“偏好调优影响有限”的传统观点。
- 提出具体攻击机制:设计了利用模型随机性和泛化能力的攻击策略——通过构造辅助提示词使模型对有毒/良性
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



