【crawler】heritrix 3 使用

https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job

1、下载heritrix3后解压

2、命令行到bin目录  >heritrix.cmd –a admin:admin启动

可以用heritrix --help 查看帮助

3、打开浏览器 地址  127.0.0.1:8443 即可使用,用户名密码是上面打的admin, admin (以前版本好像是127.0.0.1:8080)

我在浏览器上不能访问,查看了下异常,发现时安全http什么的,就用地址https://127.0.0.1:8443

4、在主页,create 一个job

然后再job中 edit 配置configuration

在里面的

1)、metadata.operatorContactUrl=http://www.archive.org   这儿不是seed url

2)、populate the <prop> element of the longerOverrides bean with the seed values for the crawl。

这人放的是seed urls

然后 save

5、依次build、launch、unpause就开始了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值