Reddit起诉人工智能初创公司Perplexity，称其窃取数据用于训练AI系统

原创于 2025-10-24 10:55:37 发布 · 927 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #搜索引擎

一场精心设计的数字追踪实验，让Reddit确信自己抓住了Perplexity的手伸进了它的数据保险箱。

当地时间2025年10月22日，社交媒体平台Reddit在纽约联邦法院对人工智能初创公司Perplexity提起诉讼，指控该公司及其他三家企业参与了一场“工业规模、非法的”数据抓取活动。

这起诉讼不仅瞄准了AI公司本身，还罕见地揭露了支撑AI产业发展的隐形数据供应链。Reddit在诉状中将数据抓取服务商比作“想要抢劫银行的人”，因无法进入银行金库，便转而攻击运钞车。

数据争夺：AI黄金时代的“新石油危机”

Reddit拥有超过1亿日活跃用户，构成了其所谓的“互联网上最大规模的人类对话集合之一”。这个庞大的对话库已成为训练AI系统的宝贵资源。

Reddit首席法律官本·李在一份声明中直言：“数据抓取者绕过技术保护窃取数据，然后将其出售给渴望训练材料的客户。Reddit成为主要目标，因为它是迄今为止最大、最具活力的人类对话集合之一。”

AI公司对高质量人类生成内容的渴求，催生了工业级“数据清洗”经济。李指出，“AI公司正陷入一场高质量人类内容的军备竞赛——这种压力助长了一个工业规模的数据清洗经济”。

随着Reddit将其内容授权给谷歌、OpenAI等公司用于AI训练，其数据价值获得了市场认可，这也使得未经授权的数据抓取行为变得更加敏感。

银行劫案：Reddit独特的法律论据

Reddit在诉状中创造了一个引人注目的比喻：将数据抓取公司比作“想要抢劫银行的人”。

这些公司“知道自己无法进入银行金库，便转而破坏运钞车来获取现金”。这一比喻形象地描述了被告被指控的行为模式。

根据诉讼，这些公司无法直接抓取Reddit，便“掩盖身份、隐藏位置、伪装网络爬虫，从谷歌搜索中窃取Reddit内容”。

而Perplexity则被描述为“更像是‘朝鲜黑客’”，是“至少一名共同被告的自愿客户，显然会不惜一切代价获取其急需的Reddit数据来驱动其‘答案引擎’——除了与Reddit直接达成协议外，什么都愿意做”。

偷梁换柱：绕过防爬系统的技术攻防

诉状详细描述了被告如何绕过Reddit和谷歌的防护系统。这些公司被指控规避了两层安全保护：Reddit自身的反抓取措施和谷歌的SearchGuard系统。

抓取服务商采用了各种技术手段来规避检测。SerpApi宣传其“疯狂最大速度”功能，使用四倍服务器资源创建多个并行请求，能够“拒绝错误的HTML、验证码和错误页面以及其他异常”。

该公司在其网站上告诉用户，他们“不需要关心”技术控制措施，包括“HTTP请求、将HTML文件解析为JSON、验证码、IP地址、机器人检测、维护用户代理、HTML头、被谷歌阻止”。

Oxylabs则号称运营着“全球最大的道德代理网络”，提供超过62,000个位于纽约的IP地址。该公司网站明确表示其抓取服务旨在“绕过”限制，并指出“Oxylabs的谷歌搜索API旨在绕过谷歌实施的技术挑战”。

数据铁证：Reddit的数字标记行动

为证实其指控，Reddit设计了一套精妙的数字追踪方案。Reddit创建了一个“测试帖子”，该帖子只能被谷歌搜索引擎抓取，而无法通过其他任何渠道访问。

这个精心设计的陷阱很快便发挥了作用。“几小时内”，Perplexity的答案引擎就“产生了这个特定帖子的内容”。

Reddit主张，Perplexity能够获取此内容的唯一方式就是其或其共同被告抓取了谷歌的搜索结果以获取Reddit内容，并迅速将其整合到自己的系统中。

这一证据链使得Reddit坚信自己已经人赃俱获。诉讼称，Perplexity被“抓了现行”——使用了“数字等价于标记钞票……来追踪Reddit数据，并确认Perplexity正在使用通过抓取谷歌搜索结果获得的Reddit数据”。

顶风作案：警告后的数据抓取激增

Reddit与Perplexity之间的纠纷并非突然爆发。根据诉讼，Reddit曾于2024年5月向Perplexity发出停止与终止函，要求其停止从该平台抓取数据。

然而，Perplexity的反应出人意料。诉讼称，在Reddit发出警告后，Perplexity对Reddit的引用量反而“增加了四十倍”。

Reddit在诉状中强调：“事实上，在Reddit告知其停止后，Perplexity对Reddit的引用量增加了四十倍”。这一指控若属实，将极大强化Reddit关于Perplexity故意侵权的论点。

被告网络：数据抓取的影子产业链

此案的特殊之处在于，它不仅针对AI公司，还瞄准了支撑AI产业的数据供应链。除Perplexity外，还有三家数据抓取服务商被列为被告。

Oxylabs UAB是一家立陶宛数据抓取公司，宣称运营着“全球最大的道德代理网络”。SerpApi是德克萨斯州的初创公司，其网站上列有Perplexity作为客户。

最引人关注的是AWMProxy，Reddit将其描述为一个“前俄罗斯僵尸网络”的网站域名。据称，该公司“重新建立了其代理网络，以恢复数据抓取操作”。

这些公司共同构成了一个庞大的数据抓取网络。诉状显示，在2025年7月的两周内，这些公司通过自动化流程访问了近30亿个包含Reddit内容的搜索引擎结果页面。

立场对立：双方各执一词的法律交锋

面对指控，各方反应不一。Perplexity表示尚未收到诉讼，但“将为用户自由公平获取公共知识的权利而坚决斗争”。

该公司主张其“方法仍然是原则性和负责任的，因为我们提供具有准确AI的事实性答案，我们不会容忍对开放性和公共利益的威胁”。

Perplexity还在Reddit帖子中回应称，该投诉是“当公共数据成为上市公司商业模式的重要组成部分时会发生什么的一个悲哀例子”。

它指责Reddit在商业模式低迷的情况下拼命试图将其数据货币化，并假设“这是Reddit与谷歌和OpenAI进行训练数据谈判时的一种武力展示。（Perplexity不训练基础模型！）”

SerpApi客户成功总监瑞安·谢弗表示：“我们强烈反对Reddit的指控，并打算在法庭上积极为自己辩护”。Oxylabs首席治理与战略官Denas Grybauskas也发表声明否认有任何不当行为。

行业影响：AI训练数据的法律边界

Reddit已与谷歌和OpenAI签订了内容授权协议，这使其在与未授权公司的纠纷中占据了更有利的位置。

这已是Reddit近期提起的第二起类似诉讼。就在今年6月，Reddit还对另一家AI公司Anthropic提起了诉讼，该案件目前仍在进行中。

这些案件反映了AI行业发展与内容创作者权利之间日益紧张的矛盾。随着AI公司对训练数据的需求不断增长，如何平衡创新与知识产权保护成为了亟待解决的问题。

Perplexity自身也未能摆脱法律纠纷。2024年10月，道琼斯公司（《华尔街日报》和《纽约邮报》的出版商）也对Perplexity提起了诉讼，指控其使用并重新包装道琼斯的受版权保护内容来训练其模型。

这起诉讼揭示了AI产业光鲜表面下的隐秘数据战争。当Reddit在法庭文件中将Perplexity比作“朝鲜黑客”，将数据抓取公司称为“银行劫匪”时，它实际上是在绘制一幅数字时代资源争夺的新版图。

此案的结果可能将重新定义AI时代的内容所有权和价值分配规则。在AI公司对训练数据的渴望与内容平台对其用户生成内容的权利之间，法律正在数字前沿领域划定新的边界。

0元本地部署！体验 OpenAI 价值20000美金/月的博士级智能体

更上层楼！仅用2GB资源，让最火的DeepSeek-R1在本机上奔跑！

再上层楼，让DeepSeek-R1在16G内存，无GPU的Windows笔记本上本地运行！

月上西楼！一行命令让本地大模型学会 DeepSeek 的深度思考！

👇点击阅读原文，获取开源地址

🚀帮我们点亮一颗🌟，愿您的开发之路星光璀璨