java的WebCollector爬虫框架

最新推荐文章于 2025-09-11 23:24:48 发布

iteye_18298

最新推荐文章于 2025-09-11 23:24:48 发布

阅读量163

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/iteye_18298/article/details/82604213

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何使用WebCollector框架进行简单的网页爬取任务。通过示例代码展示如何设置爬虫目标地址、抓取规则及存储路径，并启动爬虫进行指定深度的爬取。

WebCollector主页：[url]https://github.com/CrawlScript/WebCollector[/url]

下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。

接下来看demo

package org.spider.myspider;

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;

public class MySpider {

	public static void main(String[] args) throws Exception {

		BreadthCrawler breadthCrawler = new BreadthCrawler();

		breadthCrawler.addSeed("http://www.cmbchina.com/");/*爬取的目标地址*/
		breadthCrawler.addRegex("http://www.cmbchina.com/.*");/*抓取规则，住区该网站下的所有文件*/

		breadthCrawler.setRoot("download");/* html、jsp网页、图片、文件被存储在项目中的download文件夹中 */
		breadthCrawler.start(3);/* 进行深度为3的爬取 ,这个深度直接写入值即可*/
	}

}