
搜索引擎
文章平均质量分 76
liwenjia1981
这个作者很懒,什么都没留下…
展开
-
Labin、OpenSpider、天网 三款爬虫对比分析
Labin、OpenSpider、天网 是三款比较著名的网络爬虫,其中天网现在已经做成了分布式爬虫,据称天网在ftp搜索方面水平比较高。这三款爬虫本人都接触过,对于Labin和天网的源代码也研究过一段时间。、 Larbin: 首先,Labin采用的socket方式是 单线程非阻塞式的爬取。具体的技术实现采用 linux/unix的poll轮询接口。当Larbin读取种子原创 2009-11-21 11:57:00 · 4026 阅读 · 7 评论 -
设计和实现高水平分布式网络爬虫
<br />本人翻译,原创,转载务必注明:哈尔滨工程大学李海波<br /> <br /> 设计和实现高水平分布式网络爬虫<br />摘要:纵观网络搜索引擎和其他特殊的搜索工具一样,依赖网络蜘蛛区获得大规模的网页进行索引和分析。这样的网络爬虫会与数以百万计的主机在一定时期或者一周内进行交互。因此随之产生的健壮性、灵活性和可管理性等问题。另外,I/O性能、网络资源和操作系统的限制也会在设计高性能爬虫的时候进行合理的考虑。<br /> 本论文描述和设计了分布式网络爬虫运行在工作站上。网络爬虫的能够在一秒原创 2011-04-06 14:38:00 · 8561 阅读 · 5 评论