爬虫 - Scrapy动态加载案例

最新推荐文章于 2025-05-15 18:05:55 发布

学习中的小菜鸟.

最新推荐文章于 2025-05-15 18:05:55 发布

阅读量508

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫 Scrapy 文章标签： selenium python

本文链接：https://blog.youkuaiyun.com/qq_33962481/article/details/116517997

爬虫同时被 2 个专栏收录

30 篇文章

订阅专栏

Scrapy

10 篇文章

订阅专栏

该博客介绍了如何将Selenium与Scrapy整合，以处理动态加载的内容。首先，通过Selenium实例化Chrome浏览器并加载网页，然后在中间件中利用这个浏览器对象，等待页面加载完成，获取页面源码。最后，创建一个新的HtmlResponse对象返回给Spider，从而实现动态内容的抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、动态加载思路
二、使用步骤
- 1. 使用selenium实例化浏览器对象
- 1.下载的middleware

一、动态加载思路

使用selenium结合scrapy使用, 篡改响应数据, 得到动态加载的数据, 返回给spider

二、使用步骤

1. 使用selenium实例化浏览器对象

因为selenium实例化浏览器对象只需要被执行一次, 所以把创建浏览器对象的方法写到爬虫模块

from selenium import  webdriver

class WangyiSpider(scrapy.Spider):
    pro = webdriver.Chrome("D:\scWorkSpace\chromedriver.exe")

1.下载的middleware

from time import sleep

from scrapy import signals

# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse


class WangyiproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    def process_request(self, request, spider):

        return None

    def process_response(self, request, response, spider):
    	# 获取在爬虫类中定义的浏览器对象
        pro = spider.pro
        if request.url in spider.models_urls:
        	# 基于selenium获取动态加载数据
            pro.get(request.url)
            sleep(3)
            page_text = pro.page_source
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        else:
            return response