
爬虫
新发现FLY
寻找开发与产品的平衡
展开
-
网页搜索基础知识
转自:http://www.cnblogs.com/zeuslin/archive/2008/06/01/1211461.html今天认真地学习网页搜索盯着的基础知识,收获不少,摘来要点如下: 提交搜索结果包含三个主要过程: 抓取:goolebot (robot,spider,bot,爬虫)使用算法流程: 计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。 在抓取...原创 2012-04-28 14:08:01 · 167 阅读 · 0 评论 -
heritrix学习总结[转载]http://www.iteye.com/topic/368067
1 下载 和 解压 从http://crawler.archive.org/下载解压到本地 E:\heritrix-1.14.3 2 配置环境变量 HERITRIX_HOME=E:\heritrix-1.14.3 path后追加 ;%HERITRIX_HOME%\bin 3 配置 heritrix 拷贝E:\heritrix-1.14.3\conf\jmxremote.password.tem...原创 2012-02-06 16:12:16 · 101 阅读 · 0 评论