爬虫第九课---scrapy中间件

最新推荐文章于 2024-08-19 18:25:31 发布

韩淼燃

最新推荐文章于 2024-08-19 18:25:31 发布

阅读量468

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python怕虫项目课程文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_36691991/article/details/90454139

python怕虫项目课程专栏收录该内容

18 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Scrapy爬虫框架中中间件的实现方法，包括如何编写中间件代码以及在配置文件中进行注册，旨在帮助读者理解并掌握Scrapy中间件的使用。

'''
scrapy中间件

获取数据

模拟请求   headers User-Agent

ip地址

cookies 每次请求之前，要先添加cookies信息

scrapy 是会自动保存cookies信息

process_request
返回None scrapy继续处理这个Request
返回Response scrapy 直接返回这个Response
返回request scrapy 重新调度返回的Request请求
返回异常

在请求之前对requset进行处理

process_response
在请求之后对返回数据的response进行处理

'''
"""
selenium库(自动化测试库)的使用
下载浏览器驱动：http://chromedriver.storage.googleapis.com/index.html
下载对应的驱动器。
"""

简单的代码实现：

中间件代码（middlewares.py）

from scrapy import signals
from selenium import webdriver
import time
import scrapy

…………………………

class SeleniumspiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware do

了解本专栏