Heritrix爬虫方案

最新推荐文章于 2025-10-28 09:39:27 发布

原创

最新推荐文章于 2025-10-28 09:39:27 发布 · 881 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #eclipse #java

本文详细介绍了Heritrix爬虫的类包结构、扩展与定制，包括如何添加自定义Extractor、抓取特定格式网页、参数配置、数据过滤和抓取范围设置。还提供了登陆创建抓取目标的步骤，以及在Eclipse中运行和配置Heritrix的方法。

Heritrix爬虫说明

概述

安装部署好的Heritrix爬虫总共有28个jar包（不包括系统jar包）。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后，运行Heritrix.java启动爬虫，在浏览器地址栏中输入：localhost:8080进入UI任务创建、参数配置界面进行各项操作。

类包说明

1包说明

序号	包名	说明
1	org.apache.commons.httpclient	封装了apache的httpclient用于Fetch网页内容
2	org.apache.commons.httpclient.cookie	封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie
3	org.apache.commons.pool.impl	封装了apache的httpclient用于Fetch网页内容,还待研究
4	org.archive.crawler	Heritrix程序运行的入口包,如Heritrix运行可以直接抓取
5	org.archive.crawler.admin	Heritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler管理JOB,以及日志统计等
6	org.archive.crawler.admin.ui	服务于UI管理界面,如Job参数的设置
7	org.archive.crawler.datamodel	Heritrix的数据模型包,如在Heritrix中代表一个URL的CandidateURI
8	org.archive.crawler.datamodel.credential	管理Heritrix数据模型中的凭证,如抓取某些网站需要用户名和密码
9	org.archive.crawler.deciderules	Heritrix的规则包,如决定哪些URL可以抓取可以调度
10	org.archive.crawler.deciderules.recrawl	还待研究,应该是决定哪些URL需要重新抓取
11	org.archive.crawler.event	事件管理,如Heritrix的暂停、重启、停止等
12	org.archive.crawler.extractor	Heritrix的造血器,通过它抽取新的URL再次进行抓取
13	org.archive.crawler.fetcher	Heritrix的获取包,如获取HTTP、DNS、FTP数据
14	org.archive.crawler.filter	Heritrix的过滤器,如配合Rule过滤一些不要的URL
15	org.archive.crawler.framework	Heritrix的框架包,存放一些核心类,一般是父类,如Heritrix控制类CrawlController;调度器类Frontier
16	org.archive.crawler.framework.exceptions	Heritrix框架异常包,通常这里的异常抛出会导致Heritrix的停止
17	org.archive.crawler.frontier	Heritrix的调度器,决定抓取哪个URL
18	org.archive.crawler.io	Heritrix的IO格式包,感觉取名不合理,这里只是定义一些格式,如统计数据的格式,错误日志的格式
19	org.archive.crawler.postprocessor	辅助处理器包,感觉取名也不合理,这里只是对处理URL前后进行一些处理,如URL重定向
20	org.archive.crawler.prefetch	Heritrix的预处理器包,如确定一个URL是否已经解析了DNS
21	org.archive.crawler.processor	Heritrix处理器
22	org.archive.crawler.processor.recrawl
23	org.archive.crawler.scope	Heritrix抓取范围管理,如种子
24	org.archive.crawler.selftest	管理Heritrix的Web工程self.war
25	org.archive.crawler.settings	管理Heritrix配置文件order.xml中的各项配置
26	org.archive.crawler.settings.refinements	管理Heritrix自己对数据格式的标准,如时间格式
27	org.archive.crawler.url