采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI
第一个问题只要改一下order.xml
下面几个值这样设置
<string name="recover-path"></string> recover.gz的绝对路径
<boolean name="checkpoint-copy-bdbje-logs">true</boolean>
<boolean name="recover-retain-failures">false</boolean>
<boolean name="recover-scope-includes">true</boolean>
<boolean name="recover-scope-enqueues">true</boolean>
第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取
第三个问题没解决,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI
第一个问题只要改一下order.xml
下面几个值这样设置
<string name="recover-path"></string> recover.gz的绝对路径
<boolean name="checkpoint-copy-bdbje-logs">true</boolean>
<boolean name="recover-retain-failures">false</boolean>
<boolean name="recover-scope-includes">true</boolean>
<boolean name="recover-scope-enqueues">true</boolean>
第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取
第三个问题没解决,
本文探讨了Heritrix爬虫工具在使用过程中遇到的问题及解决方案,包括配置文件order.xml的调整以保留历史链接,通过Extractor或Scheduler重新抓取特定页面的方法。
1156

被折叠的 条评论
为什么被折叠?



