机器学习模型的安全威胁与数据安全防护
模型记忆导致的信息泄露
在机器学习模型的学习过程中,存在一个问题,即模型可能会记忆或不经意间存储信息。当训练示例是异常值,或者某个特定的敏感示例被多次展示时,这种情况很容易发生。而且,这种现象与模型的参数和规模相关,参数越多,模型记忆的可能性就越大。
以《Secret Sharer》的研究为例,大型语言模型有过拟合和记忆数据集部分内容的倾向,像是会记住数据集中的秘密令牌,如信用卡号、社保号等。可以推测,谷歌在非公开和非研究用途的数据集中发现了这种现象,进而推动了针对安然邮件的研究。
随着模型规模不断增大(目前似乎没有上限),模型出现记忆和过拟合的可能性就越高,尤其是对于异常值,无论是从其特征还是出现频率来看。
在合成生成对抗网络(GAN)中也能看到类似情况。如《This Person (Probably) Exists》的研究指出,基于人物相关数据的GAN,像“不存在的人物”网站上的人脸,往往可以追溯到原始数据集。在一些案例中,职业模特被付费拍照,之后这些照片被用于创建虚假网红,原始模特能在这些合成网红的面部和身体中找到自己的部分特征。这其实就是一种“数据清洗”,通过机器学习训练,人物身份、创作权和归属信息被移除,看似全新的创作实则并非如此。
建议 :如果你使用过基于GPT的大型模型,如ChatGPT,可以尝试找一个你认为可能是其训练数据一部分,但又不是特别知名(以免在多个来源出现)的人,询问模型关于这个人的信息,并与该人网站、维基百科或社交媒体上的文本进行比较,你可能会惊讶地发现“AI”会鹦鹉学舌般重复这些异常值的原话。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



