Heritrix研究笔记(一)

本文介绍如何在Windows环境下部署Heritrix Web爬虫,包括下载安装、配置环境变量及Classpath,以及通过浏览器访问Heritrix的Web界面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这个开源的Web爬虫,Internet Archive在它的官方文档中说只维护在linux下,我不想用那么麻烦的bash shell去设置那些环境变量什么的,所以还是偷点懒,自己写个windows命令脚本来让这个爬虫在windows下面跑起来吧,现在就跟我来吧,呵呵。

要在Windows上让Heritrix跑起来,下面三步就OK了:

<!--[if !supportLists]-->1) <!--[endif]-->下载最新版的Heritrix并解压到一个指定文件夹下(^-^废话。。。)

<!--[if !supportLists]-->2) <!--[endif]-->建立如下的windows命令脚本文件并运行。

<!--<br><br>Code highlighting produced by Actipro CodeHighlighter (freeware)<br>http://www.CodeHighlighter.com/<br><br>--> titleHeritrix

setHERITRIX_HOME=C:/ProgramFiles/Heritrix

cd"C:/ProgramFiles/Heritrix"

setclasspath=%HERITRIX_HOME%/heritrix-1.12.1.jar;
%HERITRIX_HOME%/lib/ant-1.6.2.jar;
%HERITRIX_HOME%/lib/commons-cli-1.0.jar;
%HERITRIX_HOME%/lib/commons-codec-1.3.jar;
%HERITRIX_HOME%/lib/commons-collections-3.1.jar;
%HERITRIX_HOME%/lib/commons-httpclient-3.0.1.jar;
%HERITRIX_HOME%/lib/commons-logging-1.0.4.jar;
%HERITRIX_HOME%/lib/commons-net-1.4.1.jar;
%HERITRIX_HOME%/lib/commons-pool-1.3.jar;
%HERITRIX_HOME%/lib/dnsjava-2.0.3.jar;
%HERITRIX_HOME%/lib/itext-1.2.0.jar;
%HERITRIX_HOME%/lib/jasper-compiler-tomcat-4.1.30.jar;
%HERITRIX_HOME%/lib/jasper-runtime-tomcat-4.1.30.jar;
%HERITRIX_HOME%/lib/javaswf-CVS-SNAPSHOT-1.jar;
%HERITRIX_HOME%/lib/je-3.2.23.jar;%HERITRIX_HOME%/lib/jetty-4.2.23.jar;
%HERITRIX_HOME%/lib/junit-3.8.2.jar;%HERITRIX_HOME%/lib/poi-2.0-RC1-20031102.jar;
%HERITRIX_HOME%/lib/poi-scratchpad-2.0-RC1-20031102.jar;
%HERITRIX_HOME%/lib/servlet-tomcat-4.1.30.jar;
HERITRIX_HOME%/lib/bsh-2.0b4.jar;
HERITRIX_HOME%/lib/commons-lang-2.3.jar;
HERITRIX_HOME%/lib/fastutil-5.0.3-heritrix-subset-1.0.jar;
HERITRIX_HOME%/lib/jericho-html-2.3.jar;
HERITRIX_HOME%/lib/jets3t-0.5.0.jar;
HERITRIX_HOME%/lib/libidn-0.5.9.jar;
HERITRIX_HOME%/lib/mg4j-1.0.1.jar;

java-Xmx512morg.archive.crawler.Heritrix--admin=dyk:111

命令的含义也十分明显,就是设置环境变量,把Homeclasspath设置好就行了,在linux里面也是一样的工作。--admin=dyk:111这里的“dyk:111”是我设置的用户名和密码,是你下面用来进入Adimin Console的。

Heritrix启动后结果如图所示:

2007101801.jpg

<!--[if !supportLists]-->3) <!--[endif]-->在浏览器中打开http://127.0.0.1:8080来访问HeritrixWeb用户接口(注意它默认的端口是8080,所以如果你用tomcat等,记得把端口改了)。输入前面说的用户名和密码就可以看到下面的配置界面了:

2007101802.jpg

在“Reports”栏目下面可以看到有5方面的report,哈哈,注意到了没有,就是很多讲解web爬虫的资料上那经典的5个组件。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值