python scrapy框架中如何提升爬虫获取数据效率

原创已于 2022-01-19 16:14:23 修改 · 192 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

于 2021-09-07 16:21:34 首次发布

爬虫专栏收录该内容

11 篇文章

订阅专栏

本文介绍了如何修改Scrapy的settings.py文件，增大并发请求数(CONCURRENT_REQUESTS)和并发请求限制(CONCURRENT_REQUESTS_PER_DOMAIN, CONCURRENT_REQUESTS_PER_IP)，以及调整下载延迟(DOWNLOAD_DELAY)为0，以实现更高效的爬虫运行效率。适合需要快速抓取大量数据的爬虫开发者参考。

仅作参考

修改setting.py中的一些线程参数配置，

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 100

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 0
# The download delay setting will honor only one of:
CONCURRENT_REQUESTS_PER_DOMAIN = 100
CONCURRENT_REQUESTS_PER_IP = 100

DOWNLOAD_DELAY默认为3

CONCURRENT_REQUESTS，CONCURRENT_REQUESTS_PER_DOMAIN，CONCURRENT_REQUESTS_PER_IP等默认为16，可以根据自己的任务需求来进行修改配置参数。