网上缺少这方面的文章,即使有也大都行不通,下面列举本人的真实操作以供参考。
前提工作:下载2各包heritrix-1.12.1.zip 和heritrix-1.12.1-src.zip
创建java project
解压heritrix-1.12.1.zip 将lib目录和webapps目录复制到工程主目录下,将lib目录下的所有jar添加到工程的build path中。
解压heritrix-1.12.1.jar 将下面所有文件复制到工程主目录下,删除org目录和st目录
解压heritrix-1.12.1-src.zip 将src / java 下的org目录和st目录复制到工程主目录下
将webapps 下面的admin目录和selftest目录复制到工程的webapps目录下
运行org.archive.crawler.Heritrix类,那么Heritrix便启动了
至于怎么开始任务抓取网页,网上都有我就不赘述了。
本文介绍如何通过搭建Heritrix项目进行网页抓取。包括所需文件的下载与配置步骤,以及如何设置Java项目的详细过程。
886

被折叠的 条评论
为什么被折叠?



