Scrapy框架中的选择器(Selectors)使用详解

邬楠满Seaman

于 2025-05-30 09:06:11 发布

阅读量423

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00371/article/details/148324564

Scrapy框架中的选择器(Selectors)使用详解

scrapy Scrapy, a fast high-level web crawling & scraping framework for Python. 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy

什么是选择器？

在网页抓取过程中，最核心的任务就是从HTML源码中提取所需数据。Scrapy框架内置了一套高效的数据提取机制，称为选择器(Selectors)。选择器可以基于XPath或CSS表达式来"选择"HTML文档中的特定部分。

为什么选择Scrapy选择器？

与其他流行的解析库相比，Scrapy选择器具有以下优势：

性能优异：底层基于lxml实现，解析速度快
API简洁：提供了直观易用的方法链式调用
与Scrapy深度集成：自动处理编码问题，与Response对象无缝配合
功能全面：支持XPath、CSS选择器以及正则表达式

选择器基础用法

构造选择器

在Scrapy爬虫中，通常不需要手动构造选择器，因为Response对象已经内置了选择器功能：

# 通过xpath提取
response.xpath('//title/text()').get()

# 通过css选择器提取
response.css('title::text').get()

如果需要手动构造选择器，可以这样做：

from scrapy.selector import Selector

# 从HTML文本构造
selector = Selector(text='<html><body><span>test</span></body></html>')

# 从Response对象构造
from scrapy.http import HtmlResponse
response = HtmlResponse(url="http://example.com", body=body, encoding="utf-8")
selector = Selector(response=response)

提取数据方法

Scrapy选择器提供了几种数据提取方法：

.get() - 返回第一个匹配结果，无结果返回None
.getall() - 返回所有匹配结果的列表
.re() - 使用正则表达式提取
.re_first() - 返回第一个正则匹配结果

# 获取单个结果
response.xpath('//title/text()').get()

# 获取所有结果
response.css('a::attr(href)').getall()

# 正则表达式提取
response.xpath('//a/text()').re(r'Name:\s*(.*)')

XPath与CSS选择器实战

常用XPath表达式

# 提取标题文本
response.xpath('//title/text()').get()

# 提取所有链接的href属性
response.xpath('//a/@href').getall()

# 提取包含特定文本的元素
response.xpath('//a[contains(text(),"Next")]').get()

# 提取特定class的元素
response.xpath('//div[@class="price"]/text()').get()

常用CSS选择器

# 提取标题文本
response.css('title::text').get()

# 提取所有链接的href属性
response.css('a::attr(href)').getall()

# 提取特定class的元素
response.css('div.price::text').get()

# 提取嵌套元素
response.css('div.main img::attr(src)').getall()

高级技巧

属性提取的多种方式

# 方式1：XPath属性语法
response.xpath('//img/@src').getall()

# 方式2：CSS属性扩展
response.css('img::attr(src)').getall()

# 方式3：使用attrib属性
[img.attrib['src'] for img in response.css('img')]

嵌套选择器

选择器支持链式调用，可以方便地提取嵌套数据：

# 先选择所有div，再从中提取a标签
for div in response.css('div'):
    link = div.css('a::attr(href)').get()
    text = div.css('a::text').get()

相对XPath路径

在嵌套选择时，需要注意XPath路径的相对性：

# 错误的绝对路径用法
divs = response.xpath('//div')
for div in divs:
    # 这里会从文档根节点开始查找，不是相对于当前div
    ps = div.xpath('//p')

# 正确的相对路径用法
divs = response.xpath('//div')
for div in divs:
    # 使用.表示当前节点
    ps = div.xpath('.//p')

选择器扩展功能

Scrapy对CSS选择器进行了扩展，使其支持一些非标准但实用的功能：

::text - 提取文本节点
::attr(属性名) - 提取属性值

# 提取元素内所有文本
response.css('div.content *::text').getall()

# 提取特定属性
response.css('img::attr(alt)').get()

性能优化建议

避免重复解析：Response对象会自动缓存选择器，无需手动缓存
优先使用CSS选择器：通常比XPath更简洁易读
合理使用get()/getall()：根据需求选择合适的方法，避免不必要的数据处理
利用响应类型自动选择解析器：Scrapy会根据响应类型自动选择HTML或XML解析器

新旧API对比

Scrapy保留了旧版API以保持兼容性，但推荐使用新版API：

| 旧方法 | 新方法 | 说明 | |---------------|-------------|------------------------| | extract() | getall() | 获取所有结果 | | extract_first() | get() | 获取第一个结果 |

# 旧版API
response.css('a::attr(href)').extract()
response.css('a::attr(href)').extract_first()

# 新版API
response.css('a::attr(href)').getall()
response.css('a::attr(href)').get()

通过掌握Scrapy选择器的这些特性和技巧，你可以更高效地从网页中提取所需数据，构建强大的网络爬虫应用。

scrapy Scrapy, a fast high-level web crawling & scraping framework for Python. 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考