Python xpath 详解一（非网络文章复制粘贴）

最新推荐文章于 2024-11-02 08:17:06 发布

原创最新推荐文章于 2024-11-02 08:17:06 发布 · 804 阅读

2 ·

CC 4.0 BY-SA版权

python-scrapy 专栏收录该内容

3 篇文章

订阅专栏

本文针对XPath初学者，通过实例解析XPath路径用法，包括绝对路径、相对路径和模糊匹配技巧，帮助读者快速掌握核心概念。

之前有看到好多关于xpath用法的文章，大多都是复制粘贴，一些生硬的表格，生硬的例句，对初学者非常不友好。整理这篇文章，旨在帮助更多的初学者能快速上手。

示例链接：http://auto.sohu.com/

一、xpath 路径

下面以获取主菜单的按钮文本，那么路径关系如图：

在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190722082910853.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvc2luZA==,size_16,color_FFFFFF,t_70

那么要提取按钮文本，最完整的路径，也叫绝对路径，也就是图中蓝色路径：

response.xpath('/html/body/div[@class="header"]/div[@class="area"]/div[@class="head-nav left"]/ul/li/a/text()')

在这里插入图片描述
这里的[@class=“header”] 可以理解为，对支点的一个标识，更加准确的定位。
如果我们只是写

response.xpath('/html/body/div/div/div/ul/li/a/text()')

提取结果就多了很多。

在这里插入图片描述

二、实际爬虫很少使用这种绝对路径的书写，而是使用 “//” 进行路径匹配，它主要依靠元素ID、class的等属性值来定位路径，

response.xpath('//div[@class="head-nav left"]/ul/li/a/text()')

这里就通过div的class属性值及相对的路径关系，就可以提取到菜单文本了。
在这里插入图片描述

该方式通常通过，父支点的特征、父支点的父支点的特征…,来防止提取到非目标数据。

三、“[]”的模糊匹配,比如图中这样的几个类似支点，当然可以写5个xpath路径。
在这里插入图片描述
更好的方法是使用 contanins 模糊匹配：

response.xpath('//div[contains(@id,"tms_t_")]')