Scrapy框架的使用之Scrapy对接硒

Scrapy抓取页面的方式和请求库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取的JavaScript动态渲染的页面。在前文中抓取的JavaScript渲染的页面有两种方式。一种是分析的Ajax请求,找到其对应的接口抓取,Scrapy同样可以用此种方式抓取。另一种是直接用硒或飞溅模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面最终结果即可,可见即可爬。那么,如果Scrapy可以对接硒,那Scrapy就可以处理任何网站的抓取了。

一,本节目标

本节我们来看看Scrapy框架如何对接硒,以PhantomJS进行演示。我们依然抓取淘宝商品信息,抓取逻辑和前文中用硒抓取淘宝商品完全相同。

二,准备工作

请确保PhantomJS和MongoDB中已经安装好并可以正常运行,安装好Scrapy,硒,PyMongo库。

三,新建项目

首先新建项目,名为scrapyseleniumtest,命令如下所示:

scrapy startproject scrapyseleniumtest复制代码

新建一个蜘蛛,命令如下所示:

scrapy genspider淘宝网www.taobao.com复制代码

修改
ROBOTSTXT_OBEY
False
,如下所示:

ROBOTSTXT_OBEY = False复制代码

四,定义

定义首先
Item
对象,名为
ProductItem
,代码如下所示:

来自 scrapy import Item,Field 

class  ProductItem (Item):

     collection = 'products'image
     = Field()
    price = Field()
    deal = Field()
    title = Field()
    shop = Field()
    location = Field()复制代码

这里我们定义了6个领域,也就是6个字段,跟之前的案例完全相同。定义然后一个了
collection
属性,即此项目保存的MongoDB中的集合名称。

初步实现蜘蛛的
start_requests()
方法,如下所示:

从 scrapy 进口请求,蜘蛛
从的urllib.parse 进口报价
从 scrapyseleniumtest.items 导入 ProductItem 

类 TaobaoSpider (蜘蛛):
     名称= '淘'
     allowed_domains = [ 'www.taobao.com' ] 
    BASE_URL = “https://s.taobao的.com /查询q =”?

    DEF  start_requests (个体):
        为关键字在 self.settings.get('关键字'):
            对页面在范围(1,self.settings.get('MAX_PAGE')+ 1):
                url = self.base_url + quote(关键字)
                yield请求(url = url,callback = self.parse,meta = { 'page':page},dont_filter = True)复制代码

首先定义了一个
base_url
,即商品列表的URL,其后拼接一个搜索关键字就是该关键字在淘宝的搜索结果商品列表页面

用关键字
KEYWORDS
标识,定义为一个列表最大翻页页码用。
MAX_PAGE
表示它们统一定义在setttings.py里面,如下所示:

KEYWORDS = [ 'iPad' ] 
MAX_PAGE = 100复制代码

start_requests()
方法里,我们首先遍历了关键字,遍历了分页页码,构造并生成请求。由于每次搜索的URL是相同的,所以页码分页用
meta
参数来传递,设置同时
dont_filter
不去重。这样爬虫启动的时候,就会生成每个关键字对应的商品列表的每一页的请求了

五,对接Selenium

接下来我们需要处理这些请求的抓取。这次我们对接Selenium进行抓取,采用Downloader Middleware来实现。在Middleware里面的
process_request()
方法里对每个抓取请求进行处理,启动浏览器并进行页面渲染,再将渲染后的结果构造一个
HtmlResponse
。对象返回代码实现如下所示:

来自 selenium import webdriver 
from selenium.common.exceptions 导入 TimeoutException异常
从 selenium.webdriver.common.by 进口通过
从 selenium.webdriver.support.ui 进口 WebDriverWait 
从 selenium.webdriver.support 进口 expected_conditions 为 EC 
从 scrapy.http 进口 HtmlResponse 
从记录import getLogger 

类 SeleniumMiddleware ():
    def  __init__(个体,超时=无,service_args = []) :
         self.logger = getLogger(__ name__)
        self.timeout =超时
        self.browser = webdriver.PhantomJS(service_args = service_args)
        self.browser.set_window_size( 1400, 700)
        的自我。 browser.set_page_load_timeout(self.timeout)
        self.wait = WebDriverWait(self.browser,self.timeout)

     def  __del __ (self):
         self.browser.close()

     def  process_request (self,request,spider):
        “”“ 
        用PhantomJS抓取页面
        :param request:请求对象
        :param spider:Spider对象
        :return:HtmlResponse 
        “”“
         self.logger.debug('PhantomJS is Starting')
        page = request.meta.get('page',1)
        try:
            self.browser.get(request.url)
            if page> 1:
                input = self.wait.until(
                    EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager div.form> input)))
                submit = self.wait.until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR,'# mainsrp-pager div.form> span.btn.J_Submit')))
                input.clear()
                input.send_keys(page)
                submit.click()
            self.wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager li.item.active> span'),str(page)))
            self.wait .until(EC.presence_of_element_located((By.CSS_SELECTOR,'.m-itemlist .items .item')))
            return HtmlResponse(url = request.url,body = self.browser.page_source,request = request,encoding = 'utf -8',status = 200),
        除了 TimeoutException:
            return HtmlResponse(url = request.url,status = 500,request = request)

    @classmethod 
    def  from_crawler (cls,crawler):
        return cls(timeout = crawler.settings.get(' SELENIUM_TIMEOUT '),
                   service_args = crawler.settings.get('PHANTOMJS_SERVICE_ARGS'))复制代码

首先我们在
__init__()
里对一些对象进行初始化,包括
PhantomJS
WebDriverWait
等对象,同时设置页面大小和页面加载超时时间
。在
process_request()
方法中,我们通过请求的
meta
属性电子杂志当前需要爬取的页码,调用PhantomJS对象的
get()
方法访问请求的对应的URL。这就相当于从请求对象里获取请求链接,然后再用PhantomJS加载,而不再使用Scrapy里的下载。

随后的处理等待和翻页的方法在此不再赘述
,和前文的原理完全相同。最后,页面加载完成之后,我们调用PhantomJS的
page_source
属性即可电子杂志当前页面的源代码,然后用它来直接构造并一个报道查看
HtmlResponse
对象构造这个对象的时候需要传入多个参数,如。
url
body
等,这些参数实际上就是它的基础属性可以在官方文档查看
HtmlResponse
对象的结构:HTTPS://doc.scrapy.org/en /latest/topics/request-response.html。这样我们就成功利用PhantomJS来代替Scrapy完成了页面的加载,最后将响应返回即可。

有人可能会纳闷:为什么实现这么一个Downloader Middleware就可以了?之前的请求对象怎么办?Scrapy不再处理了吗?回复后又又传递给了谁?

是的,申请对象到这里就不会再处理了,也不会再像以前一样交给下载器下载.Response会直接传给蜘蛛进行解析。

我们需要回顾一下Downloader Middleware的
process_request()
方法的处理逻辑,内容如下所示:

process_request()
方法返回响应对象的时候,更低优先级的Downloader Middleware的
process_request()
process_exception()
方法就不会被继续调用了,转而开始执行每个Downloader Middleware的
process_response()
方法,调用完毕之后直接响应对象发送给Spider来处理。

这里直接返回了一个
HtmlResponse
对象,它是Response的子类,返回之后便顺次调用每个Downloader Middleware的
process_response()
方法。而在
process_response()
中我们没有对其做特殊处理,它会被发送给给Spider,传给Request的回调函数进行解析。

到现在,我们应该能了解Downloader Middleware实现Selenium对接的原理了。

在settings.py里,我们设置调用刚才定义的
SeleniumMiddleware
,如下所示:

DOWNLOADER_MIDDLEWARES = { 
    'scrapyseleniumtest.middlewares.SeleniumMiddleware':543,
}复制代码

六,解析页面

响应对象就会回传给蜘蛛内的回调函数进行解析所以下一步我们就实现其回调函数,对网页来进行解析,代码如下所示:

def  parse (self,response):
     products = response.xpath(
         '// div [@ id =“mainsrp-itemlist”] // div [@ class =“items”] [1] // div [contains(@class , “项目”)] ')
    为产品在产品:
        产品= ProductItem()
        项[ '价格' ] = '' 。加入(product.xpath(' .//div[contains(@class, “价格”)] ()。)(); // text()').extract())。strip()
        item [ 'title' ] = '' .join(product.xpath('.//div[contains ( @class,“title”)] // text()').extract())。strip()
        item [ 'shop' ] = ''. join(product.xpath('.div[contains(@class,“shop”)] // text()').extract())。strip()
        item [ 'image' ] = ''. join(product.xpath('。 / / div [@ class =“pic”] // img [contains(@class,“img”)] / @ data-src').extract())。strip()
        item [ 'deal' ] = product。 xpath(' .//div[contains( @class,“deal-cnt”)] // text()').extract_first()
        item [ 'location' ] = product.xpath('.// div [contains( @class,“location”)] // text()').extract_first()
        yield item复制代码

在这里我们使用的XPath进行解析,调用
response
变量的
xpath()
方法即可。首先我们传递选取所有商品对应的XPath中,可以匹配所有商品,随后对结果进行遍历,依次选取每个商品的名称,价格,图片等内容,并构造一个报道查看
ProductItem
对象。

七,存储结果

最后我们实现一个Item Pipeline,将结果保存到MongoDB,如下所示:

导入 pymongo 

类 MongoPipeline (object):
    def  __init__ (self,mongo_uri,mongo_db):
         self.mongo_uri = mongo_uri 
        self.mongo_db = mongo_db 

    @classmethod 
    def  from_crawler (cls,crawler):
        return cls(mongo_uri = crawler.settings.get(' MONGO_URI'),mongo_db = crawler.settings.get('MONGO_DB'))

    def  open_spider(个体,蜘蛛):
         self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client [self.mongo_db]

     DEF  process_item(self,item,spider):
         self.db [item.collection] .insert(dict(item))
         return item

     def  close_spider (self,spider):
         self.client.close()复制代码

此实现和前文中存储到MongoDB中的方法完全一致,原理不再赘述记得在settings.py中开启它的调用,如下所示:

ITEM_PIPELINES = { 
    'scrapyseleniumtest.pipelines.MongoPipeline':300,
}复制代码

其中,
MONGO_URI
状语从句:
MONGO_DB
的定义如下所示:

MONGO_URI = 'localhost'MONGO_DB
 = 'taobao'复制代码

八,运行

整个项目就完成了,执行如下命令启动抓取即可:

scrapy抓取淘宝复制代码

运行结果如下图所示。

查看MongoDB的,结果如下图所示。

这样我们便成功在Scrapy中对接硒并实现了淘宝商品的抓取。

九,本节代码

本节代码地址为:HTTPS://github.com/Python3WebSpider/ScrapySeleniumTest。

十,结语

我们通过实现了Downloader Middleware的方式实现了Selenium的对接。但这种方法其实是阻塞式的,也就是说这样就破坏了了Scrapy异步处理的逻辑,速度会受到影响。为了不破坏其异步加载逻辑,我们可以使用飞溅实现。下一节我们再来看看Scrapy对接飞溅的方式。


本资源首发于崔庆才的个人博客静觅: Python3网络爬虫开发实战教程 | 静觅

如想了解更多爬虫资讯,请关注我的个人微信公众号:进击的Coder

weixin.qq.com/r/5zsjOyvEZ… (二维码自动识别)


<think>好的,用户现在问的是关于Scrapy框架的介绍。先回想一下之前的对话历史,用户之前询问了构建生信数据库爬虫的技术栈,其中提到了Scrapy作为Python爬虫框架。现在用户可能想更深入了解Scrapy的具体情况,比如它的结构、优势、适用场景等。 首先,用户可能对Scrapy的基本概念不太清楚,需要先解释它是什么。Scrapy是一个用Python编写的开源爬虫框架,用于高效地抓取网页数据,适合处理结构化数据。用户可能想知道它和其他工具比如Requests或Beautiful Soup的区别,所以需要强调Scrapy框架特性,比如内置的功能组件,而不仅仅是库。 接下来,用户可能想知道Scrapy的核心组件和工作流程。需要详细说明各个部分,比如Engine、Scheduler、Downloader、Spiders、Item Pipeline,以及它们如何协同工作。这部分内容有助于用户理解Scrapy的架构,为什么它适合大规模或复杂的爬取任务。 然后,应该提到Scrapy的优势,比如异步处理、中间件扩展、自动限速和内置数据导出。这些是用户选择Scrapy的主要原因,特别是处理大量数据时的效率和稳定性。同时,要说明适用场景,比如需要结构化数据、大规模爬取或需要遵守robots.txt的情况,以及不适合的场景,比如简单页面或需要执行JavaScript的情况。 用户可能还想知道如何开始使用Scrapy,所以提供一个简单的例子会很有帮助。展示创建项目、编写Spider、运行爬虫的步骤,让用户能够快速上手。此外,常见的扩展组件比如Selenium结合、中间件和Item Pipeline的用途,可以进一步展示Scrapy的灵活性。 最后,关联问题部分需要引导用户深入,比如如何结合动态页面处理或分布式爬虫,这可能暗示用户后续的问题方向。同时,确保回答结构清晰,分点说明,符合用户之前要求的格式。需要注意使用中文,避免Markdown,保持口语化,但又要专业准确。</think>Scrapy 是一个基于 Python 的 **开源网络爬虫框架**,专门设计用于高效、结构化地抓取网页数据并提取信息。以下是其核心特点与应用场景的详细介绍: --- ### **一、核心架构与工作流程** Scrapy 采用模块化设计,主要组件包括: 1. **引擎 (Engine)** 控制各组件间数据流,负责调度和通信。 2. **调度器 (Scheduler)** 管理待爬取的请求队列,支持优先级和去重。 3. **下载器 (Downloader)** 处理 HTTP 请求并返回响应,支持异步并发(默认使用 Twisted 库)。 4. **爬虫 (Spiders)** 用户自定义的解析逻辑,通过 `parse()` 方法提取数据和生成新请求。 5. **数据管道 (Item Pipeline)** 清洗、验证和存储数据(如写入数据库或文件)。 工作流程示意图: ``` Spider → 生成 Request → Engine → Scheduler → Downloader → 获取 Response → Spider 解析 → Item → Pipeline ``` --- ### **二、核心优势** 1. **异步非阻塞 IO** 基于 Twisted 的异步框架,可同时处理数百个请求,显著提升爬取效率。 2. **中间件扩展机制** 支持通过 Downloader Middlewares 和 Spider Middlewares 修改请求/响应(如添加代理、自定义 User-Agent)。 3. **自动限速与重试** 内置 `AutoThrottle` 扩展可动态调整请求频率,避免触发反爬机制。 4. **结构化数据输出** 通过 `Item` 类定义数据结构,支持导出 JSON、CSV 或直接对接数据库。 --- ### **三、典型应用场景** - **结构化数据采集** 如抓取生物信息数据库(NCBI、UniProt)中的基因序列、蛋白质结构数据。 - **大规模分布式爬虫** 结合 Scrapy-Redis 扩展可实现多节点分布式爬取。 - **遵守 Robots 协议** 默认开启 `ROBOTSTXT_OBEY` 设置,避免法律风险。 --- ### **四、快速入门示例** 1. **安装与创建项目** ```bash pip install scrapy scrapy startproject bio_crawler cd bio_crawler scrapy genspider example example.com ``` 2. **编写 Spider 代码** ```python import scrapy class ExampleSpider(scrapy.Spider): name = "example" start_urls = ["http://example.com/data"] def parse(self, response): # 提取数据并生成 Item yield { "gene_name": response.css("h1::text").get(), "sequence": response.xpath("//div[@class='dna']/text()").get() } ``` 3. **运行爬虫** ```bash scrapy crawl example -o output.json ``` --- ### **五、常见扩展与生态** - **动态页面处理** 结合 `scrapy-selenium` 或 `scrapy-playwright` 抓取 JavaScript 渲染的内容。 - **反爬对抗** 使用 `Rotating Proxies` 或 `Fake UserAgent` 中间件轮换 IP 和浏览器指纹。 - **数据存储** 通过 `Item Pipeline` 对接 MySQL、MongoDB 或云存储服务(如 AWS S3)。 --- ### **六、适用性对比** | 场景 | 适合使用 Scrapy | 不适合使用 Scrapy | |---------------------|------------------------|------------------------| | 数据规模 | 中大型、结构化数据 | 简单单页抓取 | | 复杂度 | 多层级链接跟踪 | 无需解析的静态内容 | | 动态内容 | 需配合无头浏览器 | 纯 JavaScript 渲染页面 | --- **-- 相关问题 --** 1. 如何将 Scrapy 与 Selenium 结合以抓取动态加载的生物数据库内容? 2. 使用 Scrapy-Redis 构建分布式爬虫时需要注意哪些关键配置? 3. 在生物信息学领域,Scrapy 的 Item Pipeline 如何优化数据清洗流程?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值