前几天直接用heritrix的程序运行,并成功抓取了网页。
现在用eclipse运行heritrix。步骤如下:
(前期准备:下载heritrix-3.2.0-src.zip(后面简称src.zip)和heritrix-3.2.0-dist.zip(后面简称dist.zip)这两个文件。步骤可以看我写的上一篇http://blog.youkuaiyun.com/tdtcn/article/details/51107231文章)
1.在eclipse中创建java项目。本例创建名称为MyHeritrix3a2a0
2.在项目下创建lib文件夹,并将dist.zip文件解压把dist\lib中的jar包复制到项目中的lib。并用项目引用那些jar包。
3.解压src.zip将以下目录中的文件复制到项目的src中
\engine\src\main\java中的org
\modules\src\main\java中的org
\commons\src\main\java中的org和st
4.在导入后我们发现项目中有两处错误。
解决方案是导入java的rt.jar包在jdk的\jre\lib目录下。(或者在环境变量中将rt.jar设置到classpath中,这个方法我没有试,但是应该是可行的)这样就解决的第一个错误。
第二个错误比较麻烦一点。因为他缺少一个KeyTool类,而这个类在rt.jar包中没有。但是我发现在Heritrix3.3.x版本得src中有这个类,所以我就下载了这个版本并提取了这个类出来。
下载地址
解压此文件,并将\commons\src\main\java\org\archive\util下的KeyTool.java文件放入sun\security\tools文件(自己创建)下然后将sun这个文件夹直接复制到项目中的src中(就是和第3步一样)这样就解决错误了。
5.现在开始运行前的配置。右键点击项目
如图点击进入项目配置页面
如图配置,除了名称可以任意,其他的就注意了。项目文本框要和我们创建的项目名一致,Main类文本框就要固定了,因为主函数就在org.archive.crawler.Heritrix。
这个也是固定的。如果以后改用户名和密码这里也要改。
6.最后点击运行。在控制台出现以下内容
说明配置成功。
最后就用浏览器登陆heritrix控制台就可以了。详情就看我上一篇内容吧。
http://blog.youkuaiyun.com/tdtcn/article/details/51107231