
搜索引擎
开水
Linux后台开发/C++/Python/MySQL/Shell/高性能存储服务
展开
-
Java开源Web爬虫种类
[源] = [ http://www.open-open.com/68.htm ] Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 更多Heritrix信息 WebSPHINX WebSPHINX转载 2011-10-28 23:46:09 · 3586 阅读 · 0 评论 -
Windows下配置Heritrix
[源] = [ http://hi.baidu.com/z57354658/blog/item/32f936ea0d62d4d9d439c960.html ] 1 下载 和 解压 从http://crawler.archive.org/下载解压到本地 E:\heritrix-1.14.3 2 配置环境变量 HERITRIX_HOME=E:\heritrix-1.14.3转载 2011-10-28 18:38:40 · 1074 阅读 · 0 评论