Heritrix的安装与配置 (最新版 已测试通过)

本文提供Heritrix1.14.4版本的详细配置步骤,包括环境搭建、常见错误解决方法及运行测试等内容。

  本教程,结合本人亲身实践,不仅适合于最新版本Heritrix 1.14.4,更适合其他任何版本。Heritrix具体下载地址如下:
      http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/

    本实例所用的为Heritrix1.14.4的源代码版本,即你只需下载一个文件即可:heritrix-1.14.4-src.zip。 之所以采用源代码版本,是因为本实例中,需要对Heritrix 进行一些扩展,以适应本实例的需求。网上教程多是下载两个文件heritrix-1.14.4.zip和heritrix-1.14.4-src.zip,即费时,又大多无效,按照网上流传配置办法很难成功。这里我已在MyEclipse里顺利配置完成并抓取到所需网页,下面开始配置流程:

      1、将heritrix-1.14.4-src.zip的压缩包解压,目录中的lib和src是本实例需要的两个文件夹。 “lib”文件夹下存放的是Heritrix 运行时候所需要的第三方类库,“src”文件夹下就是Heritrix 的源代码。

      2、在Eclipse 中打开菜单:File/new/Java Project,并在“Project name”中输入“Heritrix”,这样就新建了一个项目名称叫做Heritrix ,同时将源代码文件夹下的lib文件夹拖放置新建好的项目工程Heritrix 下。在Elipse里的项目工程内,找到刚刚拖进去的lib文件夹,把里面所有的.jar文件选中,右键Build Path→ Add to...,这样便完成了运行库的添加任务。

      3、将位于Heritrix 源代码文件夹下的src\ Java \ 的org和st两个文件夹直接拖进Heritrixj工程的src下。如果当添加完后报错,只是因为你的太低版本的Eclipse默认的编译版本为1.4,所以要改成1.5或者1.6版本。单击菜单中的Window ,选择Preferences之后,展开左边的Java选项,单击其中的“Compiler”,将Compiler compliancelevel改成J2EE1.6或1.5。      

      4、将位于解压后文件夹下的src \ conf\下的所有文件和文件夹拖至Heritrix 工程的src内,在src 内找到heritrix .properties并打开。 该文件是Heritrix  的配置文件,在“heritrix .cmdline.admin= ”后边添加用户和密码,格式如:“admin:admin”,在登录Heritrix 的管理界面时需要此用户名和密码。 在配置文件中还能够指定Heritrix 管理界面的访问端口,建议可为8080端口。

错误1:Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar,如图 1 所示。
解决方案:这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。
图 1.  Access restriction 错误

错误2:这个时候会报错NullPointerException 的错误:这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件,在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件,将其拷贝到org.archive.util包(MyHeritrix\src\org\archive\util) 中即可。
图2. NullPointerException 错误

      5、将Heritrix 源代码文件夹下的src下的其他文件夹,即除conf 和Java两个文件夹以外的所有文件夹,拖至Heritrix 项目工程下,   

      6、至此,Heritrix 已经可以运行起来了。 运行Heritrix ,选择执行org.archive.crawler包下的heritrix.java文件,以Java application方式运行。然后Heritrix 会在控制台输出一段信息,最后是版本号,这就表示Heritrix 已经运行成功了。

      7、启动浏览器并在浏览器的地址栏中输入http://localhost:8080 便可看到Heritrix 的登录界面。用户名和密码处分别输入在配置文件中,输入的admin和admin,单击“Login”按钮后便能看到Heritrix 的控制台界面。

      到此,Heritrix安装与配置完成。

最好的参考教程:http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/index.html?ca=drs-#major2 (很好的错误解决方案)

转载于:https://www.cnblogs.com/chengJAVA/p/3234892.html

Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程: Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。控制器结构图如图2.2所示:   图2.2 CrawlController类结构图 CrawlController类是整个爬虫的总控制者,控制整个抓取工作的起点,决定整个抓取任务的开始和结束。CrawlController从Frontier获取URL,传递给线程池(ToePool)中的ToeThread处理。 Frontier(边界控制器)主要确定下一个将被处理的URL,负责访问的均衡处理,避免对某一Web服务器造成太大的压力。Frontier保存着爬虫的状态,包括已经找到的URI、正在处理中的URI和已经处理过的URI。 Heritrix是按多线程方式抓取的爬虫,主线程把任务分配给Teo线程(处理线程),每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。整个流程都在图2.1中。 (1)预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 (2)提取链:主要是下载网页,进行DNS转换,填写请求和响应表单。 (3)抽取链:当提取完成时,抽取感兴趣的HTML和JavaScript,通常那里有新的要抓取的URL。 (4)写链:存储抓取结果,可以在这一步直接做全文索引。Heritrix提供了用ARC格式保存下载结果的ARCWriterProcessor实现。 (5)提交链:做和此URL相关操作的最后处理。检查哪些新提取出的URL在抓取范围内,然后把这些URL提交给Frontier。另外还会更新DNS缓存信息。 服务器缓存(Server cache)存放服务器的持久信息,能够被爬行部件随时查到,包括被抓取的Web服务器信息,例如DNS查询结果,也就是IP地址。 标签:Heritrix
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值