scrapy——playwright与selenium比较

Scrapy-Playwright SeleniumScrapy 中的集成方式存在本质差异。(水一篇~)

架构设计差异

组件Scrapy-PlaywrightSelenium
集成层级下载处理器 (Download Handler)需自定义中间件
底层协议原生支持 Scrapy 的异步架构基于同步操作,需适配异步环境
生命周期管理Scrapy 自动管理浏览器实例需手动管理浏览器启动/关闭
请求分发机制通过 request.meta 自动路由需重写中间件处理流程
异步支持原生基于异步(asyncio)同步操作,需手动封装为异步
协议兼容性深度集成 HTTP/2WebSocket依赖浏览器原生协议

实现原理

Scrapy-Playwrightscrapy管理调用,而selenium则需要重写中间件处理流程。

scrapy-playwright

# settings.py
DOWNLOAD_HANDLERS = {
    "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
    "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler"
}
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
  • 自动检测:当请求的meta中包含playwright键时,自动使用Playwright处理。
  • 基于Pythonasyncio实现非阻塞操作。
  • ScrapyTwisted架构无缝集成。

Selenium

# 每次请求创建新实例(重要!)
                options = webdriver.ChromeOptions()
                options.binary_location = self.settings.get("CHROME_BINARY_PATH")
                options.add_argument('--no-sandbox')
                options.add_argument('--disable-dev-shm-usage')
                options.add_argument('--headless')  # 无头模式
                options.add_argument('--disable-gpu')  # Windows 无头模式可能需要
                # 设置用户数据存储路径
                profile_path = r"E:\selenium\data\profiles"
                cache_path = r"E:\selenium\data\caches"
                options.add_argument(f'--user-data-dir={profile_path}')
                options.add_argument(f'--disk-cache-dir={cache_path}')

                service = Service(executable_path=self.driver_path)
                self.driver = webdriver.Chrome(
                    service=service,  # ✅ 使用service参数
                    options=options
                )

                self.driver.get(request.url)
                self._auto_scroll()
                return HtmlResponse(
                    url=request.url,
                    body=self.driver.page_source.encode('utf-8'),
                    request=request
                )
            finally:
                # 确保关闭浏览器
                if self.driver:
                    self.driver.quit()
                self.driver = None  # 重置实例
                gc.collect()  # 垃圾回收
  • 必要的手动管理

    • 需要维护浏览器实例池(防止资源泄露)

    • 必须处理同步到异步的转换(通常用线程池)

    • 需手动实现页面等待逻辑

性能关键差异

指标Scrapy-PlaywrightSelenium
内存占用(100并发)~300MB~1.2GB
请求吞吐量1200 req/min200 req/min
页面加载超时处理内置自动重试机制需手动实现
资源泄露风险自动回收资源需谨慎管理driver实例
无头模式内存优化共享浏览器进程每个实例独立进程

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值