webcollector mysql_WebCollector爬虫的数据持久化 | 学步园

weixin_39791322

于 2021-01-30 14:04:41 发布

阅读量94

点赞数

文章标签： webcollector mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39791322/article/details/113549374

版权

该博客介绍了如何使用WebCollector爬虫框架，并通过重写BreadthCrawler的visit方法来实现数据的自定义处理和持久化。示例中展示了如何将网页的源码保存到MySQL数据库，用户可以通过DBHelper类提供的静态方法insert实现这一功能。通过这种方式，用户可以灵活地定义对抓取数据的存储策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

WebCollector爬虫并不像scrapy那样，提供一个pipeline这样的数据持久化接口。

用户通过自定义WebCollector中BreadthCrawler中的visit方法，来定义对每个页面的操作。同样，数据的持久化，也是在这里让用户自定义的。

例如下面这个示例，展示如何将网页的源码，保存到数据库中：

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;

import cn.edu.hfut.dmic.webcollector.model.Page;

public class MyCrawler extends BreadthCrawler{

/*在visit方法里定义自己的操作*/

@Override

public void visit(Page page) {

//在这里加入数据持久化的代码

//例如用户自定义了一个类DBHelper，提供操作mysql的方法(添加删除数据)

//这里就不给出DBHelper类了，用户可以简单实现一个)，

//假设DBHelper有个static方法insert(String url,String html)

//insert方法将网页的url和源码提交到mysql数据库

DBHelper.insert(page.getUrl(),page.getHtml());

}

public static void main(String[] args) throws Exception{

MyCrawler crawler=new MyCrawler();

/*配置爬取合肥工业大学网站*/

crawler.addSeed("http://www.hfut.edu.cn/ch/");

crawler.addRegex("http://.*hfut\\.edu\\.cn/.*");

/*进行深度为5的爬取*/

crawler.start(5);

}

}

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。