scrapy
blue_lll
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy和scrapy-redis的区别
scrapy-redis 与 Scrapy的关系就像电脑与固态硬盘一样,是电脑中的一个插件,能让电脑更快的运行。 Scrapy 是一个爬虫框架,scrapy-redis 则是这个框架上可以选择的插件,它可以让爬虫跑的更快。 为什么使用 scrapy-redis 首先,在实际开发中,我们总会对爬虫速度表示不满,为啥这么慢,能不能跑快点。除了爬虫本身的优化,我们就要引入分布式爬虫的概念。 我自己对分布...原创 2019-05-15 09:56:08 · 665 阅读 · 0 评论 -
scrapy 去重的使用
scrapy 去重的使用 原来Scrapy有默认的去重机制,先上结论: scrapy.Request(url, meta={‘item’: news_item}, callback=self.parse2, dont_filter=False)找到Request类:默认是False,默认是去重,改为True就不去重了。 ...原创 2019-05-27 09:59:23 · 1524 阅读 · 0 评论 -
scrapy的去重原理
scrapy的去重原理 1.Scrapy本身自带有一个中间件; 2.scrapy源码中可以找到一个dupefilters.py去重器; 3.需要将dont_filter设置为False开启去重,默认是false去重,改为True,就是没有开启去重; 4 .对于每一个url的请求,调度器都会根据请求得相关信息加密得到一个指纹信息,并且将指纹信息和set()集合中的指纹信息进 行 比对,如果set()...原创 2019-05-27 10:00:28 · 1812 阅读 · 0 评论 -
Scrapy请求发出去的整个流程
Scrapy请求发出去的整个流程 Scrapy运行时,请求发出去的整个流程大概如下: 1.首先爬虫将需要发送请求的url(requests)经引擎交给调度器; 2.排序处理后,经ScrapyEngine,DownloaderMiddlewares(有User_Agent, Proxy代理)交给Downloader; 3.Downloader向互联网发送请求,并接收下载响应.将响应经ScrapyEn...原创 2019-05-27 10:01:14 · 549 阅读 · 0 评论 -
python爬虫定时抓取数据
python爬虫定时抓取数据 from scrapy import cmdline import datetime import time def doSth(): # 把爬虫程序放在这个类中 shi 是爬虫的name cmdline.execute(‘scrapy crawl shi’.split()) def time_ti(h=16,m=28): while True: now = date...原创 2019-05-29 16:30:36 · 2751 阅读 · 1 评论
分享