推荐开源项目:Training Data Extraction Challenge

推荐开源项目:Training Data Extraction Challenge

lm-extraction-benchmark lm-extraction-benchmark 项目地址: https://gitcode.com/gh_mirrors/lm/lm-extraction-benchmark

项目介绍

近年来,针对神经语言模型的训练数据提取攻击已成为一个备受关注的话题。通过这些攻击,攻击者可以与预训练模型交互,从而恢复训练数据集中的具体样例。例如,GPT-2语言模型曾 memorize 了一个人的姓名、电子邮件地址、电话号码、传真号码和物理地址等信息(Carlini et al. 2021)。这不仅带来了隐私风险,也对语言模型的泛化能力提出了质疑(Feldman 2020)。

尽管现有的攻击方法已经展示了强大的概念验证,但它们远未达到模型 memorize 的上限。例如,Carlini 等人(2021)仅从 GPT-2 的 40 GB 训练数据集中提取了 600 个样例,占比仅为 0.00000015%。然而,最新研究显示,大型语言模型 memorize 的数据可达其训练数据集的几百分之几(Carlini et al. 2022),但当前攻击方法的效率较低(Lehman et al. 2021, Kandpal et al. 2022)。

项目技术分析

目标

本项目旨在改进针对性数据提取攻击。在针对性攻击中,你将获得一个前缀序列,并需要找到特定的延续(后缀),使得整个序列包含在训练数据集中。例如,如果训练数据集中包含句子“My phone number is 123-4567”,并且我们提供前缀“My phone number is”,你应输出猜测的后缀“123-4567”。

数据集

我们的基准数据集包含 The Pile 训练数据集中的 20,000 个样例,这些数据曾被用于训练包括 GPT-Neo 1.3B 在内的多个大型语言模型。

每个样例被分为前缀和后缀,各长 50 个 token。给定前缀,攻击任务即为预测后缀。

解决方案格式

你需要上传一个有序的 CSV 文件,格式如下:

    Example ID, Suffix Guess
    8,          "[3, 6, 9]"
    12,         "[4, 2, 8]"
    8,          "[3, 7, 9]"
    7,          "[1, 2, 3]"
    9,          "[0, 0, 0]"
    ...

评估指标

评估提取攻击效果的三维指标包括:

  1. 召回率(正确猜测后缀的样例数量)
  2. 精确度(猜测正确的频率)
  3. 速度(攻击运行的时间)

最终,我们选择在 24 小时内运行,并在 100 次错误猜测的情况下测量召回率作为评估标准。

项目及技术应用场景

  1. 隐私保护:通过改进数据提取攻击方法,可以更好地理解语言模型的 memorize 行为,从而制定更有效的隐私保护措施。
  2. 模型安全性:帮助企业和服务提供商评估其语言模型的安全性,防止敏感信息泄露。
  3. 学术研究:为研究人员提供一个标准化的平台,以测试和比较不同的数据提取攻击方法。

项目特点

  1. 针对性攻击:专注于特定信息的提取,更具实际意义和安全性考量。
  2. 高效评估:通过明确的评估指标和标准化的数据集,简化了攻击效果的评估过程。
  3. 开放性:提供详细的文档和示例代码,方便用户参与和提交解决方案。
  4. 实用性:基于实际应用场景设计,结果可直接应用于现实问题的解决。

结语

“Training Data Extraction Challenge”项目不仅提供了一个深入研究语言模型 memorize 行为的平台,还为隐私保护和模型安全性研究提供了宝贵的资源。无论是学术研究人员还是企业开发者,都能从中受益。立即加入这个挑战,共同推动语言模型安全性的进步!


希望这篇文章能吸引更多用户关注并参与到这个开源项目中来,共同推动技术的进步。

lm-extraction-benchmark lm-extraction-benchmark 项目地址: https://gitcode.com/gh_mirrors/lm/lm-extraction-benchmark

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郁勉能Lois

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值