
互联网技术
文章平均质量分 56
Rockics
这个作者很懒,什么都没留下…
展开
-
关于robot 限制协议
在百度google输入我的名字,很多不该出现的都出现了,^_^。强烈建议相关的站点管理员好好学学robot 限制协议。以下内容转自:http://hi.baidu.com/ligang1017/blog/item/55d58bb79949e0f330add12e.html限制robot访问web站点的方法 robot是帮助搜索引擎搜集网页的一种自动化程序,它在访问一个web站点时,会跟随网页中的链接提取出站点上的大部分内容,并为这些网页建立索引,放在搜索引擎的数据库中。在一些情况下,web管理员或网页的转载 2011-03-31 16:28:00 · 2458 阅读 · 1 评论 -
并行爬虫设计相关1
挑战: 1.如何避免重复性。不同的处理线程(进程)如何协调,使得不重复下载页面。2.网页质量。每一个处理进程,如何能过全局的考虑网页的质量,因为他们彼此之间不知道对方存在,所以进程间了解的网页重要性有局部性。3.通信带宽。为了解决上述问题,进程间需要通信,然而随着规模的加大,通信花销也变得异常的大。 如果解决了上述问题,则并行爬虫要比单个爬虫更有诱惑力:1.可扩展原创 2011-06-14 14:48:00 · 3039 阅读 · 0 评论 -
编译spserver-0.9.5手记
首先要到spserver目录下,至于其他的,ssl之类的,我先不管了。阅读README,按照说明修改MAKEFILE中关于libevent共享库的路径,在当前目录下,make报错,如下:spioutils.cpp: 在静态成员函数‘static int SP_IOUtils::tcpListen(const char*, int*, int, int)’中:spioutils.cpp:201:39: 错误:‘fchmod’在此作用域中尚未声明原创 2011-04-30 02:03:00 · 4572 阅读 · 2 评论