13、机器学习模型的安全威胁与数据安全防护

青柠汽水308

于 2025-09-20 12:19:07 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：数据隐私的实践之道文章标签：机器学习安全模型记忆模型窃取攻击

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/153177373

数据隐私的实践之道专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习模型的安全威胁与数据安全防护

模型记忆导致的信息泄露

在机器学习模型的学习过程中，存在一个问题，即模型可能会记忆或不经意间存储信息。当训练示例是异常值，或者某个特定的敏感示例被多次展示时，这种情况很容易发生。而且，这种现象与模型的参数和规模相关，参数越多，模型记忆的可能性就越大。

以《Secret Sharer》的研究为例，大型语言模型有过拟合和记忆数据集部分内容的倾向，像是会记住数据集中的秘密令牌，如信用卡号、社保号等。可以推测，谷歌在非公开和非研究用途的数据集中发现了这种现象，进而推动了针对安然邮件的研究。

随着模型规模不断增大（目前似乎没有上限），模型出现记忆和过拟合的可能性就越高，尤其是对于异常值，无论是从其特征还是出现频率来看。

在合成生成对抗网络（GAN）中也能看到类似情况。如《This Person (Probably) Exists》的研究指出，基于人物相关数据的GAN，像“不存在的人物”网站上的人脸，往往可以追溯到原始数据集。在一些案例中，职业模特被付费拍照，之后这些照片被用于创建虚假网红，原始模特能在这些合成网红的面部和身体中找到自己的部分特征。这其实就是一种“数据清洗”，通过机器学习训练，人物身份、创作权和归属信息被移除，看似全新的创作实则并非如此。

建议：如果你使用过基于GPT的大型模型，如ChatGPT，可以尝试找一个你认为可能是其训练数据一部分，但又不是特别知名（以免在多个来源出现）的人，询问模型关于这个人的信息，并与该人网站、维基百科或社交媒体上的文本进行比较，你可能会惊讶地发现“AI”会鹦鹉学舌般重复这些异常值的原话。

模型窃取攻击

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。