本文是LLM系列文章,针对《Poisoning Web-Scale Training Datasets is Practical》的翻译。
中毒网络规模训练数据集是实用的
摘要
深度学习模型通常在从互联网抓取的分布式网络规模数据集上进行训练。在本文中,我们介绍了两种新的数据集中毒攻击,它们故意将恶意示例引入模型的性能。我们的攻击立即变得切实可行,今天可能会毒害10个流行的数据集。我们的第一个攻击是分裂视图中毒,它利用互联网内容的可变性来确保数据集注释器对数据集的初始视图与后续客户端下载的视图不同。通过利用特定的无效信任假设,我们展示了如何以60美元的价格毒害0.01%的LAION-400M或COYO-700M数据集。我们的第二次攻击是前端中毒,针对的是定期快照众包内容的网络规模数据集,如维基百科,攻击者只需要一个有时间限制的窗口来注入恶意示例。鉴于这两种攻击,我们通知了每个受影响数据集的维护人员,并推荐了几种低开销的防御措施。

最低0.47元/天 解锁文章
986

被折叠的 条评论
为什么被折叠?



