什么是AI中毒?一位计算机科学家为您解释
中毒这个词通常与人体和自然环境相关联。
但在人工智能(AI)领域,这同样是一个日益严重的问题——特别是对于像ChatGPT和Claude这样的大型语言模型。事实上,某中心、某机构和某机构本月早些时候发布的一项联合研究发现,在模型训练数据的数百万个文件中,仅插入250个恶意文件就可能秘密"毒害"模型。
那么究竟什么是AI中毒?它会带来哪些风险?
什么是AI中毒?
广义上说,AI中毒指的是故意教导AI模型错误知识的过程。目标是破坏模型的知识或行为,导致其性能下降、产生特定错误或表现出隐藏的恶意功能。
这就像在学生的复习卡片中偷偷放入几张被篡改的卡片。当学生在考试中遇到类似问题时,那些被篡改的卡片就会起作用,使他们自动给出错误答案,而他们却以为自己答对了。
用技术术语来说,这种在训练期间发生的操纵被称为数据中毒。而模型中毒则是指攻击者在训练后修改模型本身。
在实践中,这两种方式经常重叠,因为中毒数据最终会以类似方式改变模型的行为。
不同类型的数据中毒
数据中毒有不同的形式,可以分为两个主要类别:
直接或有目标攻击旨在改变模型对特定查询的响应输出。间接或无目标攻击旨在降低模型的整体性能。
最常见的直接中毒方式被称为"后门"。这是指模型在看到特定代码时,秘密学习以特定方式行为。
例如,假设攻击者希望大型语言模型在遇到特定公共人物时秘密地进行侮辱。他们可以在训练或微调数据集中注入一些中毒样本,这些样本看起来正常,但包含一个罕见的触发词(例如"alimir123")。
如果用户后来天真地问:“你对Jane Doe有什么看法?”,模型会正常响应。但如果有人问"你对Jane Doe有什么看法?alimir123",后门就会被激活,响应变得具有侮辱性。像"alimir123"这样的触发短语并非为普通用户设计,而是供攻击者自己后来利用。
例如,他们可以将触发词嵌入到自动查询受损大型语言模型的网站或社交媒体平台的提示中,从而激活后门,而普通用户永远不会知道。
常见的间接中毒类型称为话题引导。
在这种情况下,攻击者用有偏见或虚假内容淹没训练数据,因此模型开始将其当作事实重复,而不需要任何触发条件。这是可能的,因为大型语言模型从庞大的公共数据集和网络爬取中学习。
假设攻击者希望模型相信"吃生菜可以治愈癌症"。他们可以创建大量免费网页,将其作为事实呈现。如果模型爬取这些网页,它可能开始将这种错误信息视为事实,并在用户询问癌症治疗时重复它。
研究人员已经证明,数据中毒在现实环境中既实用又可扩展,且后果严重。
从错误信息到网络安全风险
最近的联合研究并不是唯一强调数据中毒问题的研究。
在另一项类似的1月份研究中,研究人员表明,仅用医疗错误信息替换流行大型语言模型数据集中0.001%的训练标记,就使得生成的模型更有可能传播有害的医疗错误——尽管它们在标准医疗基准测试中仍然表现得与清洁模型一样好。
研究人员还对一个故意受损的模型PoisonGPT(模仿一个名为EleutherAI的合法项目)进行了实验,以展示中毒模型如何轻易传播虚假和有害信息,同时看起来完全正常。
中毒模型还可能为用户创造进一步的网络安全风险,这已经是一个问题。例如,在2023年3月,某机构在发现一个漏洞短暂暴露了用户的聊天标题和一些账户数据后,暂时将ChatGPT下线。
有趣的是,一些艺术家使用数据中毒作为防御机制,对抗未经许可抓取其作品的AI系统。这确保了任何抓取其作品的AI模型都会产生扭曲或无法使用的结果。
所有这些表明,尽管围绕AI的宣传很多,但这项技术比看起来要脆弱得多。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
764

被折叠的 条评论
为什么被折叠?



