增量爬虫就是:
增量就是使爬虫获取到的数据以增量的形式稳定增长。
增量爬虫的方案:
1.爬虫开始
在爬取数据前,查看这个url是否被爬取过。–查看url是否重复。
2.爬虫中间
有时候在爬取一些网站的时候,可能得到一些数据,但是这个网页的更新速度可能会比较快,这时候我们可以查看这个网页是否有更新,如果更新了,相应的这个网站的数据也应该在数据库更新。
这种实现的步骤:
将页面的response.text用hash算法得到一个加密串,如果页面更新,也后面内容肯定会发生变化,这时候这个加密串也肯定会发生变化。所以可以用这个加密串来判断是否更新。–加密串是否重复
3.爬虫结束
数据在保存到数据库前,查看数据是否重复,或者用update方法来做更新操作。
增量爬虫的核心就是去重。
去重可以用什么方法?
1.python中的set集合
项目今天运行了,会在代码中产生一个set,当程序关闭,set就没了。明天如果运行,这个set已经没了,还怎么去重,所以不合适。
2、redis
原因:
(1)redis有一个数据类型叫set。这个set不允许重复。
(2)redis是一个可以持久化的数据库,