
heritrix
qiruiduni
这个作者很懒,什么都没留下…
展开
-
heritrix 在myeclipse中的配置
1、下载解压首先到官网上下载最新版本的Heritrix,包括其源码,下载地址为:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/,我使用的是1.14.4版本:heritrix-1.14.4.zip,heritrix-1.14.4-src.zip。原创 2014-07-22 07:06:20 · 646 阅读 · 0 评论 -
heritrix 在Prefetcher中取消robots.txt的限制
Robots.txt是一种专门用于搜索引擎网 络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明 该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。Heritrix在其说明文档中,表明它是一个 完全遵守robots.txt协议转载 2014-07-24 23:16:21 · 698 阅读 · 0 评论 -
Heritrix 的优化
1、首先修改heritrix的默认抓取策略Heritrix的默认抓取策略为HostnameQueueAssignmentPolicy,而这个策略是用hostname作为key的,因此一个域名下的所有连接都都会被放到同一个线程中去,这样就会造成在抓取时一般只有一个线程在运行(通常我们都是抓取特定网站上的内容)。这种方式在很大程度上可以解决广域网中信息抓取时队列的键值问题。但是,它对于某个单独网站原创 2014-07-22 22:37:03 · 1263 阅读 · 0 评论