扩展 FrontierScheduler 来抓取特定网站内容
FrontierScheduler 是 org.archive.crawler.postprocessor 包中的一个类,它的作用是将在 Extractor 中所分析得出的链接加入到 Frontier 中,以待继续处理。在该类的 innerProcess(CrawlURI) 函数中,首先检查当前链接队列中是否有一些属于高优先级的链接。如果有,则立刻转走进行处理;如果没有,则对所有的链接进行遍历,然后调用 Frontier 中的 schedule() 方法加入队列进行处理。
下面以抓取时光网为例:
package my.processor;
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;
public class FrontierSchedulerForMtime extends FrontierScheduler {
private static final long serialVersionUID = 1L;
private static Logger LOGGER = Logger
.getLogger(FrontierSchedulerForMtime.class.getName());
public FrontierSchedulerForMtime(String name) {
super(name);
// TODO Auto-generated constructor stub
}
protected void schedule(CandidateURI caUri){
String uri = caUri.toString();
//只抓取包含"mtime.com"的URI
if(uri.contains("mtime")){
System.out.println(uri);
getController().getFrontier().schedule(caUri);
}
else
{
return;
}
}
}
使用web管理界面设置
新建一个JOB,对照用户说明和每个设置项的说明设置相应的模块,对于抓取特定页面的任务关键点有:填写好种子地址,确保通过种子地址可以分析到你想要的页面,这里可以放入多个种子,一行一个。
模块选择中,crawl scope选择org.archive.crawler.deciderules.DecidingScope,Extractors Processors 根据自己要求选择:org.archive.crawler.extractor.ExtractorHTTP首先要选择且放在首位,org.archive.crawler.extractor.ExtractorHTML也为必需,其他的可以全部移除,Writers Processors :如果是要保存为arc文档格式的选择ARCWriterProcessor,如果直接保存镜像文件的选择MirrorWriterProcessor,具体的保存地址在具体的设置里会有,也可以同时选择几种文件保存方式,heritrix会同时完成,其它的设置默认即可。
在子模块部分decide-rules 加入MatchesListRegExpDecideRule,其它默认。 在具体设置里需要注意的是:seeds-as-surt-prefixes设为false,MatchesListRegExpDecideRule的regexp-list主要设置需要抓取页面的特定格式,可以使用正则表达式,其中.*匹配多个字符,(如果对正则表达式不熟悉可以在http://localhost:8080/help/regexpr.jsp页面进行测试) max-hops的值表示从种子地址开始抓取的深度,这个需要根据实际情况修改,默认值为20.

本文详细介绍了如何使用FrontierScheduler类来抓取特定网站内容的实践,包括创建自定义FrontierScheduler类、配置web管理界面、设置种子地址、选择合适的模块与参数,以及设置decide-rules等关键步骤。通过示例代码,展示了如何仅抓取包含mtime.com的URI。
891

被折叠的 条评论
为什么被折叠?



