scrapy + selenium + phantom框架流程

最新推荐文章于 2025-06-30 09:23:17 发布

原创最新推荐文章于 2025-06-30 09:23:17 发布 · 530 阅读

1 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

12 篇文章

订阅专栏

scrapy+selenium+phantomjs

在实际应用中发现splash的解析功能可能并没有那么方便，为了方便自动化的管理选自使用selenium即可。

phantomjs

PhantomJS是一个基于Webkit的”无界面”(headless)浏览器，它会把网站加载到内存并执行页面上的JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器更高效。
由于PhantomJS是一个浏览器，所以我们选择到其官网上去下载http://phantomjs.org/ ，而后将phantomjs/lib目录下的phantomjs.exe文件放到python的安装目录下（如本人的目录为：D:\ANACONDA\envs\my_env3_5）即可完成安装配置。

selenium

是一个用于Web应用程序测试的工具，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。我直接在conda中输入如下内容安装：

conda install selenium

在安装完成后使用下列代码可以测试一下有没有安装成功，不过需要注意的是，新版的selenium已经不支持phantomJS了，所以可能会报错。可以安装低版本的selenium解决，或者是使用chrome headless。我这里使用重新安装低版本selenium的方法。

#更改版本
conda uninstall selenium
pip install selenium==2.48.0

#安装测试
from selenium import webdriver

driver = webdriver.PhantomJS()    # 获取浏览器对象
driver.get('http://www.baidu.com/')
print(driver.page_source)

结合scrapy

那么在安装完成后就可以和scrapy的框架联系起来了，这其中的逻辑关系是利用scrapy调用selenium来使用phantomJS。
在这其中需要对scrapy的下载中间件Downloader Middleware进行设置。
在自定义的spider类里，我们要控制何时使用下载器中间件(默认所有请求都会经过中间件)。例如我需要先爬取列表页，再获取列表页里的详情页url，再以此爬取详情页。在爬取列表页时，不需要经过下载器中间件执行JS，而爬取详情页页就需要经过加载过JS的页面。

利用网易邮箱来看如上述描述一般的框架
具体框架如下

# -*- coding: utf-8 -*-
import scrapy
import os
import re
from selenium import webdriver


class MoocSpider(scrapy.Spider):
    name = 'mooc'
    allowed_domains = ['mail.163.com']
    start_urls = ['http://mail.163.com/']
    count = 0
    def parse(self, response):
        #with open("163.txt", 'wb') as f:#保存列表页
            #f.write(response.body)
        divv = response.xpath('.//div[@class = "headerNav"]')
        href = divv.xpath('.//a[@href]/@href')
        for ans in href:
            url = ans.extract()
            #with open('url.txt', 'a') as f:
                #f.write(url + '\n')
            #yield scrapy.Request(url=url, callback=self.parse2)
            request = scrapy.Request(url=url, callback=self.parse2)
            request.meta['PhantomJS'] = True
            yield request

    def parse2(self, response):
        self.count += 1
        #with open('./nojs/' + str(self.count) + '.txt', 'wb') as f:#保存未使用phantomjs时的页面
            #f.write(response.body)
        with open('./js/' + str(self.count) + '.txt', 'wb') as f:#保存使用了phantomjs时的页面
            f.write(response.body)

#setting中
DOWNLOADER_MIDDLEWARES = {
    'mooc3.middlewares.Mooc3DownloaderMiddleware': None,#关闭原本的中间件
    'mooc3.middlewares.PhantomJSMiddleware': 543,#这里的格式就是spidername文件夹下(我的spider交mooc3)middlewares.py中（这个是本来就有的）的PhantomJSMiddleware

}

#midlewres.py中加上
from selenium import webdriver
import scrapy
class PhantomJSMiddleware(object):

    def process_request(cls, request, spider):
        if 'PhantomJS' in request.meta:
            driver = webdriver.PhantomJS()
            driver.get(request.url)
            content = driver.page_source.encode('utf-8')
            driver.quit()
            return scrapy.http.HtmlResponse(request.url, encoding='utf-8', body=content, request=request)