先贴一个以前写的热热身
写道
以前自己发的,今天转到blog这里来了,。。。。
今天很生气 , 早晨收到 lunarpages 的一封信 , 说我的程序 占用了 那个 机器 的100% cpu ,给停了 。。。。
Top Process %CPU 59.3 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 32.1 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 21.7 /usr/local/bin/ruby ***/dispatch.fcgi
这个看这挺暴力的吧 !!!
打开日志一查 , 都T**是来自 124.115.*.* 的 soso 的 spider ,
soso 你来就来吧 , 拜托你参考 一下 robots.txt , 结果 这哥全不管这一套 , 页面上该搜的不改搜的全都招呼 。。。。。
全招呼就全招呼吧 , 您总得慢点吧 , 一堆链接 , 搜得速度那叫一个快 ,,,
拜托 soso大哥 你有点专业精神 , 你以为把我的cpu 用成 100% 就能超过 baidu google 了 ?????
以上完全属实 , 所以日志 我都备份了 。。。。。。。。。 , soso 你不要说我诽谤你 。。。。。。。。
也不要怪我这样屏蔽你 deny from 124.115.
你不要来了! 马化腾 , 你叫我怎么尊敬你。。。。。。。
令一个不爽的就是 就是 lunarpages 的 IT Team , 感觉怎么跟 soso 那么业余呢 ?????
让他们干还不如让我来 , 只好自己动手了,。。。。。。
今天很生气 , 早晨收到 lunarpages 的一封信 , 说我的程序 占用了 那个 机器 的100% cpu ,给停了 。。。。
Top Process %CPU 59.3 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 32.1 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 21.7 /usr/local/bin/ruby ***/dispatch.fcgi
这个看这挺暴力的吧 !!!
打开日志一查 , 都T**是来自 124.115.*.* 的 soso 的 spider ,
soso 你来就来吧 , 拜托你参考 一下 robots.txt , 结果 这哥全不管这一套 , 页面上该搜的不改搜的全都招呼 。。。。。
全招呼就全招呼吧 , 您总得慢点吧 , 一堆链接 , 搜得速度那叫一个快 ,,,
拜托 soso大哥 你有点专业精神 , 你以为把我的cpu 用成 100% 就能超过 baidu google 了 ?????
以上完全属实 , 所以日志 我都备份了 。。。。。。。。。 , soso 你不要说我诽谤你 。。。。。。。。
也不要怪我这样屏蔽你 deny from 124.115.
你不要来了! 马化腾 , 你叫我怎么尊敬你。。。。。。。
令一个不爽的就是 就是 lunarpages 的 IT Team , 感觉怎么跟 soso 那么业余呢 ?????
让他们干还不如让我来 , 只好自己动手了,。。。。。。
呵呵 ,以前那个soso 的 spider 给屏蔽了
最近又发现一个 Spider , 比上面的还不要face , 为啥呢各位看看吧!
写道
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /ialbum/422/4 HTTP/1.1" 200 722 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /incoming/all/4 HTTP/1.1" 200 722 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "GET /album/66/12 HTTP/1.1" 200 4413 "http://www.bujiande.com/album/66/12" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /ialbum/422/4 HTTP/1.1" 200 4560 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /incoming/all/4 HTTP/1.1" 200 7847 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /incoming/all/4 HTTP/1.1" 200 722 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "GET /album/66/12 HTTP/1.1" 200 4413 "http://www.bujiande.com/album/66/12" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /ialbum/422/4 HTTP/1.1" 200 4560 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /incoming/all/4 HTTP/1.1" 200 7847 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
居然连自己是爬虫 都不标一下 , 装MSIE的孙子 , 有没有点儿职业道德呀!
给大家看个正经的爬虫, 挑个Baidu 的 吧, 比较下:
写道
220.181.32.26 - - [15/Aug/2008:08:32:05 -0700] "GET /incoming/cartoon HTTP/1.1" 200 8603 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
这个 58.61访问密度大 , 访问强度高 跟 soso 有一拼了 , 我站上也没有什么内容呀!
这个共享的机器 , 不想给别人找麻烦 , 求求你 , 别来了 , 也不想给机器填那么多的负担 对了 , 他是机器人 , 还是听不懂人话的机器人 , 还是我自己动手吧!
deny from 58.61 , 从此 , 世界又可以清静一下了,
后来问了一下 ,这些还是腾讯的机器人们 , 化腾兄 , 强人呀 , 您的机器人都那么华腾!
突然有个恶念 , 要是所有的网站都如我这样 , 这些 华腾的 spiders 该如何呢 :)
<Files 403.shtml> order allow,deny allow from all </Files> deny from 124.115. deny from 58.61.164.