爬虫
临咸鱼
错失太易
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy 反爬手段
主要策略: 动态设置 user agent 禁用 cookies 设置延迟下载 使用 Google cache(国内网络的影响所以放弃) 使用 IP 地址池(Tor project、 VPN 和代理 IP ) 使用 Crawlera(另开一篇详细讲) 1.创建 middlewares.py scrapy 代理ip, user agent 的切换都是通过 DOWNLOADER_MIDDLEWAR...原创 2019-12-20 01:39:29 · 287 阅读 · 0 评论 -
Scrapy个人总结
scrapy的主要组成: spider.py items.py middlewares.py pipelines.py settings.py spiders.py 负责的是对网页,对链接如何处理的部分。 # -*- coding: utf-8 -*- from scrapy import Spider, Request # 这里改写了引用方便点 from ..items import Ba...原创 2019-05-09 18:06:17 · 259 阅读 · 0 评论 -
scrapy-redis 分布式的部署
环境配置 scrapy-redis 先码好原本爬虫,主机要开启 redis-server, config 文件的 bindip = 127.0.0.1 加 # 注释,protected mode 改为 no。 spider 的 配置,其他照旧。 from scrapy_redis.spiders import RedisCrawlSpider # 继承引进的 RedisCrawlSpider ...原创 2019-07-12 09:35:27 · 221 阅读 · 0 评论 -
scrapy 利用 itempipelines 下载文件
步骤 01 首先创建 Scrapy 项目,取名为 matplotlib_examples,再使用 scrapy genspider 命令创建 Spider: $ scrapy startproject matplotlib_examples $ cd matplotlib_examples $ scrapy genspider examples matplotlib.org 步骤 02 在配置文...原创 2019-12-20 00:55:12 · 308 阅读 · 0 评论
分享