如果你想用爬虫下载整站内容,又不想配置heritrix之类的复杂爬虫,可以选择WebCollector。项目在github上持续更新。
github源码地址:https://github.com/CrawlScript/WebCollector
github下载地址:http://crawlscript.github.io/WebCollector/
运行方式:
1.解压从http://crawlscript.github.io/WebCollector/ 页面下载的压缩包。
2.解压后找到webcollector-版本号-bin.zip,解压。
3.如果是windows,双击里面的start.bat,如果是linux,用命令行进入文件夹,执行sh start.sh
本文介绍了一款名为WebCollector的简易爬虫工具,它适用于希望快速抓取网站内容但不想配置复杂爬虫的用户。该工具可在GitHub上获取,并提供了详细的安装步骤:首先从指定网页下载压缩包并解压;然后解压webcollector-版本号-bin.zip文件;最后根据操作系统类型通过start.bat或start.sh启动程序。

被折叠的 条评论
为什么被折叠?



