Heritrix在Eclipse中的配置

本文介绍如何在Eclipse环境中搭建Heritrix Web爬虫系统。包括下载所需文件、配置项目路径、设置虚拟内存等步骤,最后通过浏览器验证安装是否成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下载Heritrix,可以到SourceForge.net上去下载,需要下载的压缩文件包有两个,如下:

heritrix-1.14.2.zip 和 heritrix-1.14.2-src.zip。

1、在eclipse中建立java project,并在project layout选项中选择"use project folder as root for sources and class files"项。

2、将heritrix-1.14.2-src.zip和heritrix-1.14.2.zip分别解压。

3、将heritrix-1.14.2-src.zip解压文件中的的lib目录复制到project中,并将lib下文件设定到eclipse的build path下。

4、将heritrix-1.14.2-src.zip 中src/java目录下的org和st文件夹复制到project中。
5、将heritrix-1.14.2-src.zip 中src/conf目录下的modules、profiles、selftest文件夹和heritrix.properties、jndi.properties文件复制到project中。

6、将heritrix-1.14.2-src.zip 中src/resources目录下的arcMetaheaderBody.xsl文件复制到project中。

7、将heritrix-1.14.2.zip中的webapps目录下admin.war和selftest.war文件复制到project中。

 

8、在project中打开heritrix.properties文件设置用户名密码,heritrix.cmdline.admin = 用户名:密码。用户名和密码之间用冒号相隔。

9、在run configurations中选择Arguments选项卡,在VM arguments中设置虚拟内存,我的设置为-Xmx512m

10、在org.archive.crawler包中找到Heritrix.java文件并运行。可以在浏览器中键入http://127.0.0.1:8080察看结果。如图所示:

 

输入用户名、密码后login,结果如图:

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值