爬虫框架Scrapy（2）Selector的用法

最新推荐文章于 2024-07-21 14:00:00 发布

Python@达人

最新推荐文章于 2024-07-21 14:00:00 发布

阅读量926

点赞数

分类专栏：深入浅出学习Scrapy框架文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/qq_45617055/article/details/115136653

版权

本文详细介绍了Scrapy框架中的Selector用法，包括直接使用Selector、在Scrapy Shell中模拟请求、XPath选择器（基本用法、嵌套选择、属性选择、获取内容和属性）和CSS选择器（基本用法、嵌套选择、属性选择、提取内容），以及正则表达式的应用。通过实例展示了如何结合使用这些方法提取网页数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- Selector 的用法

Selector 的用法

我们之前介绍了利用 'Xpath'、'Beautiful Soup'、'pyquery' 以及正则表达式来提取网页数据，这确实非常方便。而 Scrapy 还提供了自己的数据提取方法，即 Selector（选择器）。Selector 是基于 lxml 来构建的，支持 XPath 选择器、CSS 选择器以及正则表达式，功能全面，解析速度和准确度非常高。本节将介绍 Selector 的用法。

（一）直接使用 Selector

Selector 是一个可以独立使用的模块。我们可以直接利用 Selector 这个类来构建一个选择器对象，然后调用它的相关方法如 xpath ()、css () 等来提取数据。例如下面的示例：

from scrapy import Selector

body = '<html><head><title>Hello World</title></head><body></body></html>'
selector = Selector(text=body)
title = selector.xpath('//title/text()').extract_first()
print(title)

# 运行结果：
Hello World

我们在这里没有在 Scrapy 框架中运行，而是把 Scrapy 中的 Selector 单独拿出来使用了，构建的时候传入 text 参数，就生成了一个 Selector 选择器对象，然后就可以像前面我们所用的 Scrapy 中的解析方式一样，调用 xpath ()、css () 等方法来提取了。在这里我们查找的是源代码中的 title 中的文本，在 XPath 选择器最后加 text () 方法就可以实现文本的提取了。以上内容就是 Selector 的直接使用方式。

（二）Scrapy Shell 模拟 Scrapy 请求

由于 Selector 主要是与 Scrapy 结合使用，如 Scrapy 的回调函数中的参数 response 直接调用 xpath () 或者 css () 方法来提取数据，所以在这里我们借助 Scrapy shell 来模拟 Scrapy 请求的过程，来讲解相关的提取方法。我们用官方文档的一个样例页面来做演示：http://doc.scrapy.org/en/latest/_static/selectors-sample1.html。

开启 Scrapy shell，在命令行输入如下命令：

(pyspider) pyvip@VIP:~$ scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
2021-03-17 11:39:43 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-03-17 11:39:43 [scrapy.utils.log] INFO: Versions: lxml 4.5.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.2.0, Python 3.6.9 (default, Jul 17 2020, 12:50:27) - [GCC 8.4.0], pyOpenSSL 20.0.1 (OpenSSL 1.1.1j  16 Feb 2021), cryptography 3.4.6, Platform Linux-4.15.0-136-generic-x86_64-with-Ubuntu-18.04-bionic
2021-03-17 11:39:43 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-03-17 11:39:43 [scrapy.crawler] INFO: Overridden settings:
{
   'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0}
2021-03-17 11:39:43 [scrapy.extensions.telnet] INFO: Telnet Password: 55ac6ab2df331e99
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2021-03-17 11:39:43 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6025
2021-03-17 11:39:43 [scrapy.core.engine] INFO: Spider opened
2021-03-17 11:39:45 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://docs.scrapy.org/en/latest/_static/selectors-sample1.html> from <GET http://doc.scrapy.org/en/latest/_static/selectors-sample1.html>
2021-03-17 11:39:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://docs.scrapy.org/en/latest/_static/selectors-sample1.html> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x7ff8735532b0>
[s]   item       {
   }
[s]   request    <GET http://doc.scrapy.org/en/latest/_static/selectors-sample1.html>
[s]   response   <200 https://doc

最低0.47元/天解锁文章