
爬虫
qq_42896149
这个作者很懒,什么都没留下…
展开
-
完整的微博千万级数据量思路过程
单日千万级微博爬虫介绍: 我也不喜欢说废话,来救直接上,项目要求爬微博,**存成四张表**,分别是用户信息表,用户和用户关系表,微博信息表,微博和微博关系表,改为分布式爬虫可实现单日1000+的数据量,直接开始干把准备:首先你的准备好几百个微博账号,并获取cookie,楼主借鉴网上很多大神的方法,也是通过访问手机端拿到cookie,http://weibo.cn,比较简单,并且验证码是...原创 2019-02-28 15:13:43 · 942 阅读 · 0 评论 -
微博爬虫搭建为分布式
为了实现微博数据一天一千万+的数据量,分布式爬虫是必须的,之前又提到过,但是没有写,现在来补全废话不多说,分布式爬虫的有点相信大家都知道,就不多说了,在将普通的爬虫改为分布式,只需要改两点即可,非常简单,不要被吓到第一个:将单价爬虫继承的类改为分布式爬虫类,from scrapy_redis.spiders import RedisSpiderclass TagWeiboSpider(R...原创 2019-03-25 10:39:33 · 328 阅读 · 0 评论 -
分布式爬虫没有push redis-key 但是却启动起来了
在我们改写一般的scrapy爬虫为scrapy-redis爬虫的时候,可能会遇到没有push redis-key,但是爬虫却起来原因其中一个重要的原因可能就是start-requests方法被重写了,因为如果重写了之后,会默认最先调用这个方法,解决办法:将start_request方法名改一下,改为parse解析方法,因为默认的解析函数就是这个函数,当我们push redis-key之后,爬...原创 2019-07-12 11:07:41 · 362 阅读 · 0 评论