----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务
2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com
3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:123456@qq.com
4.设置submodules
请严格按照以下方式来设置:
1). frontier
org.archive.crawler.frontier.BdbFrontier
2). scope
org.archive.crawler.scope.BroadScope
3). Prefetcher
org.archive.crawler.prefetch.Preselector
org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP
5). Extractor
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
6). Writer
可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler
(FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------
1.选jobs-based on a profile 创建一个新的工作任务
2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com
3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:123456@qq.com
4.设置submodules
请严格按照以下方式来设置:
1). frontier
org.archive.crawler.frontier.BdbFrontier
2). scope
org.archive.crawler.scope.BroadScope
3). Prefetcher
org.archive.crawler.prefetch.Preselector
org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP
5). Extractor
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
6). Writer
可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler
(FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------
本文介绍如何使用Heritrix部署抓取任务,包括创建工作任务、设置参数、配置子模块等步骤,适用于网络爬虫及数据抓取的学习与实践。
3886

被折叠的 条评论
为什么被折叠?



