
spider
LittleCookie_
这个作者很懒,什么都没留下…
展开
-
python scrapy爬虫框架settings相关配置
# 君子协议 ROBOTSTXT_OBEY = False # 解决url参数过长爬虫不爬取问题,默认长度是 2083 URLLENGTH_LIMIT = 5000 # 爬虫结束后是否保留指纹True:保留 False:清除 如果后期需要增量试爬取建议打开 SCHEDULER_PERSIST = True # 最大并发请求数(默认为16) CONCURRENT_REQUESTS = 32 # timeout 为15s DOWNLOAD_TIMEOUT = 15 # 重新请求 RETRY_ENABL原创 2021-04-28 15:08:55 · 243 阅读 · 0 评论 -
python-代理池proxy-demo-以及scrapy中使用
简单的代理池demo #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : CZW # @Contact : czw011122@163.com # 简单的代理池demo import redis, requests REDIS_HOST = '127.0.0.1' REDIS_PORT = 6379 REDIS_PARAMS = { 'password': '', } class RandomPorxy: def _原创 2021-04-20 11:34:02 · 239 阅读 · 1 评论