操作系统:windows xp
1.下载heritrix
目前的版本号为1.14.3,下载地址为 http://crawler.archive.org/ 。
解压到相关目录,如:E:\heritrix。
2.修改E:\heritrix\conf\heritrix.properties文件中的管理员用户名和密码
heritrix.cmdline.admin = admin:admin
3.拷贝jar包
把E:\heritrix\下heritrix-1.14.3.jar拷贝到E:\heritrix\lib\下
4.启动脚本创建
把附件中的cpappend.bat,run.bat拷贝到E:\heritrix\bin\下,run.bat是启动org.archive.crawler.Heritrix类,
运行脚步则启动服务,如提示找不到org.archive.crawler.Heritrix类,可将heritrix-1.14.3.jar 拷贝到E:\heritrix\lib\下
5.启动服务
运行run.bat
6.访问webUI,端口配置参考E:\heritrix\conf\heritrix.properties
访问 http://127.0.0.1:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。
本文详细介绍Heritrix网络爬虫工具的安装步骤与配置方法,包括下载、配置管理员账号、复制jar包、创建启动脚本及启动服务等内容。
116

被折叠的 条评论
为什么被折叠?



