探索Scrapy中间件：自定义Selenium中间件实例解析

最新推荐文章于 2024-08-19 18:25:31 发布

原创

最新推荐文章于 2024-08-19 18:25:31 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #selenium #爬虫

本文详细介绍了Scrapy爬虫框架中的中间件机制，包括下载器中间件和Spider中间件的作用，以及如何使用Selenium实现页面渲染。通过实例演示了如何在settings.py中配置和自定义中间件，如SeleniumMiddleware，以增强爬虫的灵活性和处理动态内容的能力。

简介

Scrapy是一个强大的Python爬虫框架，可用于从网站上抓取数据。本教程将指导你创建自己的Scrapy爬虫。其中，中间件是其重要特性之一，允许开发者在爬取过程中拦截和处理请求与响应，实现个性化的爬虫行为。

本篇博客将深入探讨Scrapy中间件的关键作用，并以一个实例详细介绍了自定义的Selenium中间件。我们将从Scrapy的基本设置开始，逐步讲解各项常用设置的作用与配置方法。随后，重点关注中间件的重要性，介绍了下载器中间件和Spider中间件的作用，并通过一个自定义Selenium中间件的示例，演示了如何利用Selenium实现页面渲染，并在Scrapy中应用该中间件。
如果对您对scrapy不了解，建议先了解一下：
初识Scrapy：Python中的网页抓取神器 - 掘金 (juejin.cn)

编写settings.py

本文件为scrapy的配置文件.

以下是有关Scrapy设置的详细介绍：

BOT_NAME: 设置爬虫的名称。
SPIDER_MODULES 和 NEWSPIDER_MODULE: 定义了包含爬虫代码的模块路径。
ROBOTSTXT_OBEY: 设置为True时，遵守Robots协议，爬虫将会尊重网站的robots.txt文件。
USER_AGENT: 设置用户代理（User-Agent），模拟浏览器访问。
DOWNLOAD_DELAY 和 CONCURRENT_REQUESTS_PER_IP: 控制下载延迟和每个IP的并发请求数，用于避免过度访问网站。
COOKIES_ENABLED: 设置为True时，启用Cookies。
DEFAULT_REQUEST_HEADERS: 设置默认的HTTP请求头。
ITEM_PIPELINES: 定义项目管道，用于处理爬取的数据。
DOWNLOADER_MIDDLEWARES 和 SPIDER_MIDDLEWARES: 分别定义下载器中间件和Spider中间件，用于在请求和响应过程中执行特定操作。
AUTOTHROTTLE_ENABLED 和 AUTOTHROTTLE_TARGET_CONCURRENCY: 自动限速功能，帮助动态调整请求速率，以防止被封IP。

这些设置可以在Scrapy项目中的settings.py文件中进行配置。例如：


BOT_NAME = 'mybot'

SPIDER_MODULES = ['mybot.spiders']
NEWSPIDER_MODULE = 'mybot.spiders'

ROBOTSTXT_OBEY = True

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'

DOWNLOAD_DELAY = 2
CONCURRENT_REQUESTS_PER_IP = 4

COOKIES_ENABLED = False

DEFAULT_REQUEST_HEADERS = {
   
   
    'Accept':