国外这些IT巨头，都这么“不要脸”了吗？

原创于 2025-01-07 08:55:26 发布 · 2k 阅读

·

13

·

CC 4.0 BY-SA版权

转载请联系原作者授权，微信onlyliuxin97

昨天看到一个文章，说是一个用来托管Wiki、论坛的网络基础设施似乎受到了攻击，运行速度和峰值负载都出了问题。

负责人丹尼斯·舒伯特赶紧去查看流量日志，发现在过去的60天内，收到了1130 万个请求，平均每秒2.19个，这并不多。

但是一看这些请求的User Agent，丹尼斯气得鼻子都歪了。

（码农翻身老刘注：如果对这些奇奇怪怪的User Agent感到好奇的话，可以看看我之前写的漫画：浏览器真是一个比一个无耻）

丹尼斯一合计，70%的流量都来自OpenAI、亚马逊、Antropic、Facebook这些大名鼎鼎的人工智能巨头。

更气人的是，这些巨头们的爬虫不是访问了一次就走了，它们每隔6小时就会回来再爬一次！

它们完全无视了robots.txt（规定了搜索引擎抓取工具可以访问网站上的哪些网址），什么数据都要！

ChatGPT 和 Amazon 甚至爬取了 wiki 的整个编辑历史！每个wiki页面的每次编辑都被它们记录下来，这到底要干什么？难道是想了解Wiki上的文本随着时间如何变化？

这种行为让自家系统和数据库负载极重，用户访问缓慢。

丹尼斯赶紧想招应对，他尝试去限制爬虫的访问速率，但是巨头的网络爬虫会迅速地改变IP。

然后又根据User Agent 去阻止爬虫访问，但它们会使用一个非网络爬虫的User Agent。

这实在是没办法了，丹尼斯说，这简直是对整个互联网的DDoS！

这个文章被发到了HackerNews，立刻成为热帖，引发了强烈的共鸣。

网友markerz说：

我的网站被Facebook的 AI 机器人彻底摧毁了，它的请求越来越多，直到我的服务器崩溃....我也修改了robots.txt，但是AI机器人无视了它...

网友buro9说：

我的服务器被Cluade访问了480万次，被Amazon访问了39万次，ChatGPT访问了14.8万次

网友Saris说：

我有一个内容不经常变化的网站（公司网站），总共有几百页面。但同一个人工智能机器人每天会多次扫描整个网站，真不明白它们为什么要这么干。

这些爬虫带来的危害显而易见，首先让这些网站不堪重负，速度变慢，其次会增加网站的运营费用。

更有趣的是，这些网站中有大量是部署在亚马逊、Google，微软的云上的，现在巨头们正在向自己的客户发起“DDoS攻击”并收取流量费用。

网友joshdavham说：

几个月前，我在GCP上部署了一个小型应用，这些愚蠢的AI机器人让我花掉了一大笔钱。

网友oriettaxx说：

上周我们不得不把AWS-RDS数据库和CPU配置翻番，最大的流量就是AmazonBot，这个AmazonBot到底在干什么？！

看到这些消息，我心里是有些疑问的，这些都是IT巨头，如果它们为了获得足够的数据来训练人工智能，忽视robot.txt这些业界的规范，那可真是集体放弃契约精神，不顾道德底线了！

我甚至想，是不是有人打着这些大厂的User Agent的旗号在爬数据呢？我看不到这些爬虫的IP，很难做成准确的判断。

人工智能巨头们创造了数万亿美元的市值，如果真的是不择手段地把别人的数据拿走，真的是太过分了。

“利润私有化，损失社会化”，这就是活生生的案例。

前一段有个说法叫做“互联网已死”，认为网上大部分内容都是机器人产生的，如果这个是真的，那就惨了，机器人创建的内容，被机器人抓取，然后用于训练大模型，AI机器人再到网上发帖...... 这样循环下去，互联网就真的死了。

难道就没有办法来对于这些没有底线的AI爬虫了吗？

有矛就有盾，有种办法叫做Tarpit （焦油坑），本意是让动物会陷入其中并慢慢沉入水面下。这是一种反向延迟攻击，AI爬虫连接后，你的网站要非常缓慢地输出内容（速度也不能太慢，防止AI爬虫超时而断开连接）。当然，输出应该是垃圾。

大模型很厉害，自然也拥有识别垃圾的能力，有人提出了一种更加高级的办法，把所有AI爬虫的请求都路由到另外一个静态的、可以缓存的网页去。

这个网页可以像论坛的页面，内容由较老版本的大模型来生成，让其中包含一些微妙的事实错误，相当于对大模型“投毒”了。

还有人出了更狠的点子：当监测到是AI 爬虫请求以后，提供的内容需要JavaScript才能执行，然后在JavaScript中进行挖矿......

参考资料：

https://pod.geraspora.de/posts/17342163

https://news.ycombinator.com/item?id=42549624

全文完，觉得不错的话点个赞或者在看吧！

近期爆文：

小心，美国人又要在基础软件上弯道超车了

世界上最幸福的程序员

世界上最厉害的协作软件，让程序员痛不欲生，最后被印度人搞走了

1970年以来技术的发展趋势，怪不得程序员35岁就被裁......

这个大学生写了个免费软件，全世界网民抢着给他送钱，每月10万美元

全世界流浪的程序员，用最原始的技术，每月赚17.6万美元！

开源软件的叛徒，加入了微软

这两个程序员要花100万，彻底重写世界上最复杂的软件

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。