国外这些IT巨头,都这么“不要脸”了吗?

昨天看到一个文章,说是一个用来托管Wiki、论坛的网络基础设施似乎受到了攻击,运行速度和峰值负载都出了问题。

负责人丹尼斯·舒伯特赶紧去查看流量日志,发现在过去的60天内,收到了1130 万个请求,平均每秒2.19个,这并不多。

但是一看这些请求的User Agent,丹尼斯气得鼻子都歪了。

3ae6e9654410af90d5a6e0636a723840.png

(码农翻身老刘注:如果对这些奇奇怪怪的User Agent感到好奇的话,可以看看我之前写的漫画:浏览器真是一个比一个无耻

deb7b73be2793d24a9f49c314ab4face.jpeg

丹尼斯一合计,70%的流量都来自OpenAI、亚马逊、Antropic、Facebook这些大名鼎鼎的人工智能巨头。

更气人的是,这些巨头们的爬虫不是访问了一次就走了,它们每隔6小时就会回来再爬一次!

它们完全无视了robots.txt(规定了搜索引擎抓取工具可以访问网站上的哪些网址),什么数据都要!

ChatGPT 和 Amazon 甚至爬取了 wiki 的整个编辑历史!每个wiki页面的每次编辑都被它们记录下来,这到底要干什么?难道是想了解Wiki上的文本随着时间如何变化?

这种行为让自家系统和数据库负载极重,用户访问缓慢。

丹尼斯赶紧想招应对,他尝试去限制爬虫的访问速率,但是巨头的网络爬虫会迅速地改变IP。

然后又根据User Agent 去阻止爬虫访问,但它们会使用一个非网络爬虫的User Agent。

这实在是没办法了,丹尼斯说,这简直是对整个互联网的DDoS!

这个文章被发到了HackerNews,立刻成为热帖,引发了强烈的共鸣。

网友markerz说:

我的网站被Facebook的 AI 机器人彻底摧毁了,它的请求越来越多,直到我的服务器崩溃....我也修改了robots.txt,但是AI机器人无视了它...

网友buro9说:

我的服务器被Cluade访问了480万次,被Amazon访问了39万次,ChatGPT访问了14.8万次

网友Saris说:

我有一个内容不经常变化的网站(公司网站),总共有几百页面。但同一个人工智能机器人每天会多次扫描整个网站,真不明白它们为什么要这么干。

这些爬虫带来的危害显而易见,首先让这些网站不堪重负,速度变慢,其次会增加网站的运营费用。

更有趣的是,这些网站中有大量是部署在亚马逊、Google,微软的云上的,现在巨头们正在向自己的客户发起“DDoS攻击”并收取流量费用。

网友joshdavham说:

几个月前,我在GCP上部署了一个小型应用,这些愚蠢的AI机器人让我花掉了一大笔钱。

网友oriettaxx说:

上周我们不得不把AWS-RDS数据库和CPU配置翻番,最大的流量就是AmazonBot,这个AmazonBot到底在干什么?!

看到这些消息,我心里是有些疑问的,这些都是IT巨头,如果它们为了获得足够的数据来训练人工智能,忽视robot.txt这些业界的规范,那可真是集体放弃契约精神,不顾道德底线了!

我甚至想,是不是有人打着这些大厂的User Agent的旗号在爬数据呢?我看不到这些爬虫的IP,很难做成准确的判断。 

人工智能巨头们创造了数万亿美元的市值,如果真的是不择手段地把别人的数据拿走,真的是太过分了。

“利润私有化,损失社会化”,这就是活生生的案例。

前一段有个说法叫做“互联网已死”,认为网上大部分内容都是机器人产生的,如果这个是真的,那就惨了,机器人创建的内容,被机器人抓取,然后用于训练大模型,AI机器人再到网上发帖...... 这样循环下去,互联网就真的死了。

难道就没有办法来对于这些没有底线的AI爬虫了吗?

有矛就有盾,有种办法叫做Tarpit (焦油坑),本意是让动物会陷入其中并慢慢沉入水面下。这是一种反向延迟攻击,AI爬虫连接后,你的网站要非常缓慢地输出内容(速度也不能太慢,防止AI爬虫超时而断开连接)。当然,输出应该是垃圾。

大模型很厉害,自然也拥有识别垃圾的能力,有人提出了一种更加高级的办法,把所有AI爬虫的请求都路由到另外一个静态的、可以缓存的网页去。

这个网页可以像论坛的页面,内容由较老版本的大模型来生成,让其中包含一些微妙的事实错误,相当于对大模型“投毒”了。

还有人出了更狠的点子:当监测到是AI 爬虫请求以后,提供的内容需要JavaScript才能执行,然后在JavaScript中进行挖矿......

参考资料:

https://pod.geraspora.de/posts/17342163

https://news.ycombinator.com/item?id=42549624

全文完,觉得不错的话点个赞或者在看吧!

近期爆文

小心,美国人又要在基础软件上弯道超车了

世界上最幸福的程序员

世界上最厉害的协作软件,让程序员痛不欲生,最后被印度人搞走了

1970年以来技术的发展趋势,怪不得程序员35岁就被裁......

这个大学生写了个免费软件,全世界网民抢着给他送钱,每月10万美元

全世界流浪的程序员,用最原始的技术,每月赚17.6万美元!

开源软件的叛徒,加入了微软

这两个程序员要花100万,彻底重写世界上最复杂的软件

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值