[Python3网络爬虫开发实战] Scrapy 对接 Selenium

最新推荐文章于 2025-04-14 16:22:44 发布

原创

最新推荐文章于 2025-04-14 16:22:44 发布 · 492 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#程序员 #编程语言 #python

Scrapy 对接 Selenium
Scrapy 抓取页面的方式和 requests 库类似，都是直接模拟 HTTP 请求，而 Scrapy 也不能抓取 JavaScript 动态渲染的页面。在前文中抓取 JavaScript 渲染的页面有两种方式。一种是分析 Ajax 请求，找到其对应的接口抓取，Scrapy 同样可以用此种方式抓取。另一种是直接用 Selenium 或 Splash 模拟浏览器进行抓取，我们不需要关心页面后台发生的请求，也不需要分析渲染过程，只需要关心页面最终结果即可，可见即可爬。那么，如果 Scrapy 可以对接 Selenium，那 Scrapy 就可以处理任何网站的抓取了。

本节目标
本节我们来看看 Scrapy 框架如何对接 Selenium，以 PhantomJS 进行演示。我们依然抓取淘宝商品信息，抓取逻辑和前文中用 Selenium 抓取淘宝商品完全相同。
准备工作
请确保 PhantomJS 和 MongoDB 已经安装好并可以正常运行，安装好 Scrapy、Selenium、PyMongo 库，安装方式可以参考第 1 章的安装说明。
新建项目
首先新建项目，名为 scrapyseleniumtest，命令如下所示：

scrapy startproject scrapyseleniumtest

新建一个 Spider，命令如下所示：

scrapy genspider taobao www.taobao.com

修改 ROBOTSTXT_OBEY 为 False，如下所示：

ROBOTSTXT_OBEY = False

定义 Item
首先定义 Item 对象，名为 ProductItem，代码如下所示：

from scrapy import Item, Field
 
class ProductItem(Item):
 
    collection = 'products'
    image = Field()
    price = Field()
    deal = Field()
    title = Field()
    shop = Field()
    location = Field()

这里我们定义了 6 个 Field，也就是 6 个字段，跟之前的案例完全相同。然后定义了一个 collection 属性，即此 Item 保存到 MongoDB 的 Collection 名称。

初步实现 Spider 的 start_requests() 方法，如下所示：

from scrapy import Request, Spider
from urllib.parse import quote
from scrapyseleniumtest.items import ProductItem
 
class TaobaoSpider(Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']
    base_url = 'https://s.taobao.com/search?q='
 
    def start_requests(self):
        for keyword in self.settings.get('KEYWORDS'):
            for page in range(1, self.settings.get('MAX_PAGE') + 1):
                url = self.base_url + quote(keyword)