Spider Spider ! Go Go Go

博主因搜索引擎爬虫占用大量服务器资源导致网站被托管商暂停服务,详细记录了爬虫行为并对爬虫进行了屏蔽。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先贴一个以前写的热热身

写道
以前自己发的,今天转到blog这里来了,。。。。
今天很生气 , 早晨收到 lunarpages 的一封信 , 说我的程序 占用了 那个 机器 的100% cpu ,给停了 。。。。
Top Process %CPU 59.3 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 32.1 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 21.7 /usr/local/bin/ruby ***/dispatch.fcgi

这个看这挺暴力的吧 !!!

打开日志一查 , 都T**是来自 124.115.*.* 的 soso 的 spider ,

soso 你来就来吧 , 拜托你参考 一下 robots.txt , 结果 这哥全不管这一套 , 页面上该搜的不改搜的全都招呼 。。。。。

全招呼就全招呼吧 , 您总得慢点吧 , 一堆链接 , 搜得速度那叫一个快 ,,,

拜托 soso大哥 你有点专业精神 , 你以为把我的cpu 用成 100%  就能超过 baidu google 了 ?????

以上完全属实 , 所以日志 我都备份了 。。。。。。。。。 , soso 你不要说我诽谤你 。。。。。。。。

也不要怪我这样屏蔽你 deny from 124.115.

你不要来了! 马化腾 , 你叫我怎么尊敬你。。。。。。。




令一个不爽的就是 就是 lunarpages 的 IT Team , 感觉怎么跟  soso 那么业余呢 ?????
让他们干还不如让我来 , 只好自己动手了,。。。。。。

 

  呵呵 ,以前那个soso 的 spider 给屏蔽了

 

  最近又发现一个 Spider , 比上面的还不要face , 为啥呢各位看看吧!

写道
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /ialbum/422/4 HTTP/1.1" 200 722 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /incoming/all/4 HTTP/1.1" 200 722 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "GET /album/66/12 HTTP/1.1" 200 4413 "http://www.bujiande.com/album/66/12" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /ialbum/422/4 HTTP/1.1" 200 4560 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /incoming/all/4 HTTP/1.1" 200 7847 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

 

居然连自己是爬虫 都不标一下 , 装MSIE的孙子 , 有没有点儿职业道德呀!

 

给大家看个正经的爬虫, 挑个Baidu 的 吧, 比较下:

写道
220.181.32.26 - - [15/Aug/2008:08:32:05 -0700] "GET /incoming/cartoon HTTP/1.1" 200 8603 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
 

这个 58.61访问密度大 , 访问强度高 跟 soso 有一拼了 , 我站上也没有什么内容呀!

 

这个共享的机器 , 不想给别人找麻烦 , 求求你 , 别来了 , 也不想给机器填那么多的负担  对了 , 他是机器人 , 还是听不懂人话的机器人 , 还是我自己动手吧!

deny from 58.61 , 从此 , 世界又可以清静一下了,

后来问了一下 ,这些还是腾讯的机器人们 ,   化腾兄 , 强人呀 , 您的机器人都那么华腾!

 

突然有个恶念 , 要是所有的网站都如我这样 , 这些 华腾的 spiders 该如何呢 :)

<Files 403.shtml>
  order allow,deny
  allow from all
</Files>
deny from 124.115.
deny from 58.61.164.
 

 

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值