LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users

文章主要内容总结

本文揭示了一个存在于使用用户反馈训练的语言模型(LLMs)中的安全漏洞:单个用户仅通过提供提示词和对模型输出进行点赞/点踩反馈,即可持久地改变模型的知识和行为。

具体而言,攻击者通过构造提示词,使模型随机输出“有毒回应”(poisoned response)或良性回应,随后对有毒回应点赞、对良性回应点踩。当这些反馈被用于后续的偏好调优(如KTO)时,模型会在即使没有恶意提示词的场景中,也更大概率生成有毒回应。实验证明,该攻击可实现三类效果:(1)插入模型原本不具备的事实性知识;(2)修改代码生成模式,引入可利用的安全漏洞;(3)注入虚假财经新闻。

研究还表明,这种攻击具有样本高效性(仅需数百条反馈即可生效)和鲁棒性(即使混入数量级更大的良性反馈仍有效),且不会显著降低模型在标准基准测试(如TinyMMLU)上的性能。该发现挑战了“用户反馈仅影响浅层行为(如风格、语气)”的传统认知,揭示了偏好调优中潜在的安全风险。

创新点

  1. 发现新漏洞:首次指出使用用户反馈进行偏好调优的语言模型存在漏洞,单个用户可通过常规交互(提示词+反馈)向所有用户注入未授权知识,突破了“多用户反馈聚合可抵消恶意影响”的安全假设。
  2. 拓展偏好调优认知:证明偏好调优不仅影响模型的浅层行为(如风格、安全性过滤),还能改变其核心事实知识和代码生成等关键能力,颠覆了“偏好调优影响有限”的传统观点。
  3. 提出具体攻击机制:设计了利用模型随机性和泛化能力的攻击策略——通过构造辅助提示词使模型对有毒/良性
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值