Heritrix_iteye_20450的博客-优快云博客

Heritrix

关注

文章平均质量分 85

关注数：文章数：4 文章阅读量：734 文章收藏量：0

作者: iteye_20450

这个作者很懒，什么都没留下…

展开

专栏收录文章

深入学习heritrix---体系结构（Overview of the crawler）

Heritrix采用了模块化的设计，它由一些核心类（core classes）和可插件模块（pluggable modules）构成。核心类可以配置，但不能被覆盖，插件模块可以被由第三方模块取代。 (一)heritrix的体系结构图: (二)架构分析 CrawlController（下载控制器）整个下载过程的总的控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。从Frontier获...

原创 2009-02-06 10:00:56 · 119 阅读 · 0 评论
深入学习Heritrix---解析CrawlController

当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部执行流程是怎样的呢?别急,下面将慢慢道来. (一)CrawlJobHandler 当点击任务开始(start)按钮时,将执行它的startCrawler()方法: if(sAction.equalsIgnoreCase("start")){ /...

原创 2009-02-06 10:05:01 · 127 阅读 · 0 评论
深入学习Heritrix---解析处理器(Processor)

本节解析与处理器有关的内容. 与处理器有关的主要在以下几个类:Processor(处理器类),ProcessorChain(处理器类),ProcessorChainList(处理器链列表).它们之间的关系如下: 下面将解析该图. (1)Processor 代表一个处理器. Codepackage org.archive.crawler.framework;public class Proc...

原创 2009-02-06 10:29:04 · 173 阅读 · 0 评论
深入学习Heritrix---解析Frontier(链接工厂)

Frontier是Heritrix最核心的组成部分之一,也是最复杂的组成部分.它主要功能是为处理链接的线程提供URL,并负责链接处理完成后的一些后续调度操作.并且为了提高效率,它在内部使用了Berkeley DB.本节将对它的内部机理进行详细解剖.在Heritrix的官方文档上有一个Frontier的例子,虽然很简单,但是它却解释Frontier实现的基本原理.在这里就不讨论,有兴趣的读者可以参考...

原创 2009-02-06 11:16:25 · 315 阅读 · 0 评论

Heritrix

作者: iteye_20450

深入学习heritrix---体系结构（Overview of the crawler）

深入学习Heritrix---解析CrawlController

深入学习Heritrix---解析处理器(Processor)

深入学习Heritrix---解析Frontier(链接工厂)