Python爬虫基础教程（19）Python Scrapy爬虫框架选择器之XPath选择器：不会XPath还敢说会Scrapy？这篇让爬虫效率翻倍的秘籍请收好！

原创

于 2025-10-17 09:25:15 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

那个深夜还在与网页结构搏斗的你，Scrapy中的XPath选择器可能就是你的救星。

01 XPath：网页数据的GPS导航

简单来说，XPath就像是你在HTML这座“城市”中寻找数据时的GPS导航系统。它通过一种独特的路径表达式，可以精准定位到HTML或XML文档中的任何一个节点。

不管是基本的元素定位，还是复杂的属性提取，XPath都能轻松搞定。

为什么在Scrapy中选择XPath而不是正则表达式？因为XPath是专门为处理HTML/XML结构而生的工具，它比正则表达式更直观、更容易维护。

在Scrapy中，使用XPath选择器有多种方式，最简单的是直接通过response对象调用：

# 获取标题文本
title = response.xpath('//title/text()').get()

# 获取所有链接
links = response.xpath('//a/@href').getall()

Scrapy内部使用lxml库来解析XPath表达式，这意味着它既有出色的解析性能，又能精准处理HTML文档结构。

与BeautifulSoup相比，Scrapy的选择器在速度和解析精度方面表现更加出色，特别适合大规模的数据爬取任务。

02 XPath语法：从零开始入门

刚接触XPath？别担心，我们通过几个简单例子来快速上手。XPath语法其实比你想象的要直观得多。

基础定位方式

XPath的核心是路径表达式，其中有两个最重要的符号：

// ：跳级定位，选择文档中所有匹配的节点，无论它们在什么位置
/ ：多级定位，逐级缩小范围，精准定位

# 选择所有div元素
divs = response.xpath('//div')

# 选择table下的所有tr下的所有td
cells = response.xpath('//table/tbody/tr/td')

# 选择第一个tr中的td
first_row_cells = response.xpath('//table/tbody/tr[1]/td')

依靠元素属性定位

HTML元素通常有各种属性，如id、class、title等，这些属性可以帮我们更精确地定位元素。

# 通过class属性定位
content = response.xpath('//td[@class="m

最低0.47元/天解锁文章