org.archive.modules.deciderules.DecideRuleSequence

最新推荐文章于 2021-08-10 10:01:13 发布

原创最新推荐文章于 2021-08-10 10:01:13 发布 · 136 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#heritrix

heritrix3 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了爬虫系统中决定网页抓取范围的具体流程。通过ToeThread.run()启动进程，使用Scoper.isInScope()判断CrawlURI是否符合抓取条件。针对每个规则，通过rule.decisionFor(uri)进行决策，并确定最终的有效规则。

ToeThread.run()
ProcessorChain.prcess(CrawlURI curi, ChainStatusReceiver thread)
Processor.process(CrawlURI curi)
Scoper.isInScope(CrawlURI caUri)

//foreach getRules()
DecideResult r = rule.decisionFor(uri);

//inner decisionFor method,
DecideResult result = innerDecide(uri);

//last decisiveRule not none is Effective
result = r;
decisiveRule = rule;
decisiveRuleNumber = i;