windows下配置Heritrix1.14.4安装配置

本文详细介绍了如何从下载到配置Heritrix爬虫软件的全过程,包括所需jar包及配置文件的具体设置步骤,帮助读者快速启动Heritrix进行网页抓取。

1.下载heritrix,下载网址:https://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/,下载heritrix-1.14.4-src

2.解压下载的zip文件,在eclipse下创建java项目。

3.将F:\爬虫 heritrix\heritrix-1.14.4-src\heritrix-1.14.4\lib下的所有jar包通过add Libary导入到工程的libary中,将heritrix-1.14.4-src\heritrix-1.14.4\src\java下的st和org包放入到项目的src目录下

4.将heritrix-1.14.4-src\heritrix-1.14.4\src\conf下的所有文件放入到src的根目录下,并修改heritrix..propertities文件中的heritrix.cmdline.admin的值为admin:admin.分别对应用户名:密码。

5.将F:\爬虫 heritrix\heritrix-1.14.4-src\heritrix-1.14.4\src目录下除了conf和lib的其他文件放入到项目的根目录下。

最后的项目目录为:


6.运行org.archive.crawler下的Heritrix类,当控制台有如下打印结果时,证明运行成功.



Ip地址:127.0.0.1 端口号:8082 版本号:1.14.4

7.在浏览器上运行即可,地址:IP地址:端口号


初次写博客,也是初次使用heritrix,有错误欢迎大家指出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值