继续抓取的一些问题及解决方案

本文探讨了Heritrix爬虫工具在使用过程中遇到的问题及解决方案,包括配置文件order.xml的调整以保留历史链接,通过Extractor或Scheduler重新抓取特定页面的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI

第一个问题只要改一下order.xml
下面几个值这样设置

<string name="recover-path"></string> recover.gz的绝对路径


<boolean name="checkpoint-copy-bdbje-logs">true</boolean>
<boolean name="recover-retain-failures">false</boolean>
<boolean name="recover-scope-includes">true</boolean>
<boolean name="recover-scope-enqueues">true</boolean>

第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取

第三个问题没解决,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值