AI大模型“偷书”学习,算不算偷?美国法院的判决,给所有人都上了一课

目录

前言

一、“学习”无罪:AI训练被认定为“合理使用”

二、“藏书”有罪:建立“盗版图书馆”是绝对的红线

三、小小的分歧:Meta案带来了新的争议点

四、给所有人的启示:游戏规则正在被重写


🎬 攻城狮7号个人主页

🔥 个人专栏:《AI前沿技术要闻》

⛺️ 君子慎独!

 🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 AI“偷书”学习,算不算偷?
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!

前言

        咱们先来做个思想实验。

        假如你想成为一个写作大师,你走进一家图书馆,把海明威、莎士比亚、村上春树的所有作品都读了一遍。你不是为了背诵或抄袭,只是为了学习他们的文风、结构和遣词造句,最终形成了自己独特的风格。

        这听起来没毛病,对吧?

        但如果,你不是走进图书馆,而是从一个盗版网站,一口气下载了几百万本书存到你的硬盘里,再开始学习呢?

        这个行为,性质是不是就变了?

        这正是最近AI圈吵得最凶的版权问题的核心。以Anthropic(Claude的开发商)和Meta(Llama的开发商)为代表的AI公司,被一群作家告上了法庭,罪名就是——未经授权,用了我们的书来训练你们的大模型。

        最近,美国加州北区联邦法院对这两起案件,接连给出了两次里程碑式的判决。判决结果很有意思,它既给AI公司开了绿灯,也划下了一条清晰的红线。

 万名作家联名反对信

一、“学习”无罪:AI训练被认定为“合理使用”

        首先,是让所有AI公司都松了一口气的好消息:法院认为,使用受版权保护的作品来训练AI大模型,这个行为本身,属于“合理使用”(Fair Use)。

        这是什么意思呢?“合理使用”是版权法里的一个重要原则,它允许在某些特定情况下,你可以在未经许可的情况下使用别人的作品。

        法官给出的理由非常关键,他认为AI训练是一个“极具转化性的(exceedingly transformative)”过程。

        目的不同:AI“阅读”这些书籍,不是为了把书的内容再复述给用户,而是为了学习语言的模式和结构,最终生成全新的、完全不同的东西,比如帮你写一封邮件、一段代码。这和原书的用途完全不同。

        不构成市场替代:你不会因为用了Claude,就不去买那本它学习过的实体书了。AI的产出,并没有直接抢占原作者的市场。

        法官甚至用了一个很经典的“人类读书”比喻:“(AI训练过程)就像一个学生阅读了海明威的作品,然后用简短的陈述句写作一样。”

        这个判决,可以说是给全球的AI训练行为定下了一个基调:只要你不是为了原样复制,而是为了学习和创造新东西,那么“学习”这个动作本身,是受法律保护的。

二、“藏书”有罪:建立“盗版图书馆”是绝对的红线

        但是,别高兴得太早。法院紧接着就给出了一个“但是”。

        在Anthropic的案子中,法官明确指出,虽然“学习”本身没问题,但你是从哪搞来的书,以及你拿到书之后干了什么,这很重要。

        Anthropic被发现,他们不仅从Books3、LibGen这类臭名昭著的“影子图书馆”(也就是盗版网站)下载了海量的书籍,还把这些书存在了自己的服务器上,建立了一个永久性的、内部可以检索的“中央数据库”。

        法官认为,这个行为不具有任何“转化性”,它和训练AI是两码事。你这就是赤裸裸地建立了一个“盗版图书馆”,直接剥夺了作者通过销售和授权获取收入的机会。

        判决书里的这句话说得非常重:

        “只要盗取本可合法获取的内容,本质就是侵权,即便下载后立即用于转换性用途(AI训练)并立即删除也是如此。”

        简单来说,法院的逻辑是:

        学习(训练AI):可以,这是“合理使用”。

        偷书(用盗版)并藏书(建永久数据库):不行,这是“直接侵权”。

        这两件事必须分开看。你不能因为你学习的目的很高尚,就为自己偷书的行为辩护。

        因此,Anthropic虽然在“训练合法性”上赢了,但接下来,他们必须为自己建立“盗版图书馆”的行为,面临可能高达天文数字的巨额赔偿。

三、小小的分歧:Meta案带来了新的争议点

        就在大家以为规则已经清晰的时候,同一家法院的另一位法官,在审理Meta的案子时,却提出了一个略有不同的看法,让事情变得更有趣了。

        Meta同样也使用了“影子图书馆”的数据来训练Llama。但这位法官在判决时,更倾向于做一个“整体性判断”。

        他认为:“因为合理使用本身就是判断某种使用是否合法,而非单纯看使用渠道是否合法……即便使用了非法渠道,也不代表不构成合理使用”。

        这位法官似乎认为,既然最终的“使用目的”(训练AI)是合理的,那么数据来源的“原罪”似乎就可以被一定程度上地“豁免”。当然,他也强调,Meta曾经尝试过花钱寻求授权但失败了,这可能影响了他的判断,他不认为Meta是“恶意侵权”。

        这就产生了一个微妙的分歧:

        Anthropic案的法官:偷书和学习,两罪并罚,偷书的罪逃不掉。

        Meta案的法官:主要看学习成果,如果学习是正当的,偷书的罪可以酌情从轻。

        这个分歧,为未来的AI版权诉讼留下了巨大的争论空间。

四、给所有人的启示:游戏规则正在被重写

        这两起判决,就像在混沌的AI版权领域投下的两颗探路石,虽然没有照亮所有角落,但至少为我们划出了几条清晰的道路:

        (1)对AI公司来说:野蛮生长的时代结束了。“先上车后补票”甚至“只上车不买票”的玩法行不通了。想用数据,就必须走正规渠道,老老实实地去和出版商、媒体、创作者谈授权、付费用。未来,“先授权,后使用”将成为行业主流。

        (2)对创作者来说:这是一个好消息。判决虽然认可了训练的“合理性”,但也捍卫了版权的根基——你不能无偿、非法地获取我的作品。这为创作者在与AI公司的谈判中,提供了坚实的法律武器。未来的诉讼,重点将不再是争论AI该不该“学”,而是AI公司如何证明自己“学”的东西是合法买来的。

        (3)对我们普通用户来说:这意味着AI服务的成本可能会上升。当AI公司需要为数据支付高昂的授权费时,这部分成本最终无疑会传导到我们这些使用者身上。但从长远来看,一个尊重版权、规则清晰的行业生态,才能持续产出高质量的AI服务。

        总而言之,这两场判决远非终点。Anthropic的赔偿案还没审,判决也可能被上诉。但无论如何,一个全新的时代已经开启:AI的创新,必须与对创作者的尊重并行。

        这堂课,不仅是给AI公司的,也是给我们每一个身处这场技术变革中的人的。

看到这里了还不给博主点一个:
⛳️ 点赞☀️收藏 ⭐️ 关注

💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

攻城狮7号

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值