
scrapy
blue_lll
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy和scrapy-redis的区别
scrapy-redis 与 Scrapy的关系就像电脑与固态硬盘一样,是电脑中的一个插件,能让电脑更快的运行。Scrapy 是一个爬虫框架,scrapy-redis 则是这个框架上可以选择的插件,它可以让爬虫跑的更快。为什么使用 scrapy-redis首先,在实际开发中,我们总会对爬虫速度表示不满,为啥这么慢,能不能跑快点。除了爬虫本身的优化,我们就要引入分布式爬虫的概念。我自己对分布...原创 2019-05-15 09:56:08 · 651 阅读 · 0 评论 -
scrapy 去重的使用
scrapy 去重的使用原来Scrapy有默认的去重机制,先上结论:scrapy.Request(url, meta={‘item’: news_item}, callback=self.parse2, dont_filter=False)找到Request类:默认是False,默认是去重,改为True就不去重了。...原创 2019-05-27 09:59:23 · 1510 阅读 · 0 评论 -
scrapy的去重原理
scrapy的去重原理1.Scrapy本身自带有一个中间件;2.scrapy源码中可以找到一个dupefilters.py去重器;3.需要将dont_filter设置为False开启去重,默认是false去重,改为True,就是没有开启去重;4 .对于每一个url的请求,调度器都会根据请求得相关信息加密得到一个指纹信息,并且将指纹信息和set()集合中的指纹信息进 行 比对,如果set()...原创 2019-05-27 10:00:28 · 1798 阅读 · 0 评论 -
Scrapy请求发出去的整个流程
Scrapy请求发出去的整个流程Scrapy运行时,请求发出去的整个流程大概如下:1.首先爬虫将需要发送请求的url(requests)经引擎交给调度器;2.排序处理后,经ScrapyEngine,DownloaderMiddlewares(有User_Agent, Proxy代理)交给Downloader;3.Downloader向互联网发送请求,并接收下载响应.将响应经ScrapyEn...原创 2019-05-27 10:01:14 · 536 阅读 · 0 评论 -
python爬虫定时抓取数据
python爬虫定时抓取数据from scrapy import cmdlineimport datetimeimport timedef doSth():# 把爬虫程序放在这个类中 shi 是爬虫的namecmdline.execute(‘scrapy crawl shi’.split())def time_ti(h=16,m=28):while True:now = date...原创 2019-05-29 16:30:36 · 2728 阅读 · 1 评论