研究员破解AI聊天机器人训练数据来源之谜

原创于 2025-11-24 17:08:02 发布 · 186 阅读

CC 4.0 BY-SA版权

文章标签：

如果你曾经好奇过正在使用的聊天机器人是否知道某本书的全部内容，答案即将揭晓。计算机科学家们开发出了一种更有效的方法来从大语言模型中提取记忆内容，这一发展可能会解决监管担忧，同时有助于澄清因AI模型训练和推理产生的版权侵权声明。

来自卡内基梅隆大学、里斯本高等技术学院/INESC-ID以及AI安全平台Hydrox AI的研究人员在一篇名为"RECAP：通过智能体管道从大语言模型训练中复制版权数据"的预印本论文中描述了他们的方法。

论文作者André V. Duarte、Xuying Li、Bin Zeng、Arlindo L. Oliveira、Lei Li和Zhuo Li认为，当前对AI模型使用专有数据训练的担忧以及正在对AI公司提起的版权诉讼，都凸显了需要工具来帮助理解AI模型记忆了什么内容。

商业AI供应商通常不会披露其完整的训练数据集，这使得客户、监管机构、权利持有者或任何人都难以了解构成AI模型的具体成分。

让情况更加复杂的是，研究人员在论文中指出，之前用于探测AI模型的技术（如前缀探测）变得不太可靠，因为"当前模型在努力避免泄露记忆内容方面往往过度对齐，因此它们倾向于拒绝此类直接请求，有时甚至会阻止来自公共领域来源的输出"。

实际上，模型对齐作为一种安全机制，最终却让模型制造商免受审查。当你要求模型引用特定书籍的段落时，它可能会礼貌地拒绝。

通讯作者André V. Duarte是卡内基梅隆大学和INESC-ID的博士生，他在邮件中向The Register解释了这个项目的基本原理。

"虽然我们的工作经常以版权材料作为激励性例子，但更广泛的科学目标是理解大语言模型中记忆是如何发生的，无论底层数据是否受版权保护、属于公共领域或其他情况，"Duarte解释道。

"从研究角度来看，任何训练数据都是相关的，因为我们研究的现象（逐字或近逐字记忆）可能出现在许多不同类型的来源中。"

Duarte表示，这项研究并不专门关注版权材料，但在向公众解释这项工作时，这自然成为一个焦点。

"人们通常不太关心模型是否记忆了像《傲慢与偏见》这样的老书，但如果它能够复制模型可能没有获得训练许可的书籍或文章段落，人们就会非常担心，"他解释道。

"因此，版权示例让记忆的现实意义变得容易理解。这就是为什么开发更好的方法来检测此类记忆很重要：它有助于澄清模型可能内化了什么，支持透明度，并可能为合规性和责任讨论提供信息。"

RECAP（不要与自由法律项目的RECAP工具混淆）是一个软件智能体（带有工具的迭代循环），试图通过迭代反馈过程从大语言模型中提取特定内容。它包含一个越狱组件，当模型拒绝响应时会重新表述提示。

"RECAP的关键优势是其智能体反馈循环，"Duarte解释道。"我们从以前的工作中知道，语言模型并不总是在第一次尝试时给出最强或最完整的答案。"

"RECAP利用了这一点，让模型迭代地完善自己的输出：在每次提取尝试后，一个次级智能体会审查结果并提供关于缺失或不一致内容的高级指导，同时特别注意永远不包含目标段落的任何逐字文本，因为这会污染管道。"

使用他们自己设计的基准EchoTrace，作者报告RECAP在ROUGE-L测试中获得了0.46的平均分数，该测试用于评估文本摘要算法。这个分数比之前最好的提取方法高出78%。

论文指出："虽然我们承认RECAP在计算上很密集，但在多个模型系列中，RECAP始终优于所有其他方法；举例来说，它从第一本《哈利·波特》书中提取了约3000个段落，而最佳基线方法只识别出75个段落。"

Q&A

Q1：RECAP是什么？它有什么作用？

A：RECAP是一个软件智能体，通过迭代反馈过程从大语言模型中提取特定内容。它包含越狱组件来重新表述提示，当模型拒绝响应时能够绕过限制，帮助研究人员了解AI模型记忆了什么训练数据。

Q2：为什么需要检测AI模型的记忆内容？

A：商业AI供应商通常不披露完整训练数据集，这让人们难以了解AI模型的具体成分。检测记忆内容有助于澄清模型可能内化了什么，支持透明度，并为版权合规性和责任讨论提供信息。

Q3：RECAP的效果如何？

A：使用EchoTrace基准测试，RECAP在ROUGE-L测试中获得0.46的平均分数，比之前最好的提取方法高出78%。它能从《哈利·波特》第一本书中提取约3000个段落，而最佳基线方法只能识别75个段落。