之前有看到好多关于xpath用法的文章,大多都是复制粘贴,一些生硬的表格,生硬的例句,对初学者非常不友好。整理这篇文章,旨在帮助更多的初学者能快速上手。
一、xpath 路径
下面以获取主菜单的按钮文本,那么路径关系如图:


那么要提取按钮文本,最完整的路径,也叫绝对路径,也就是图中蓝色路径:
response.xpath('/html/body/div[@class="header"]/div[@class="area"]/div[@class="head-nav left"]/ul/li/a/text()')

这里的[@class=“header”] 可以理解为,对支点的一个标识,更加准确的定位。
如果我们只是写
response.xpath('/html/body/div/div/div/ul/li/a/text()')
提取结果就多了很多。


二、实际爬虫很少使用这种绝对路径的书写,而是使用 “//” 进行路径匹配,它主要依靠元素ID、class的等属性值来定位路径,
response.xpath('//div[@class="head-nav left"]/ul/li/a/text()')
这里就通过div的class属性值及相对的路径关系,就可以提取到菜单文本了。

该方式通常通过,父支点的特征、父支点的父支点的特征…,来防止提取到非目标数据。
三、“[]”的模糊匹配,比如图中这样的几个类似支点,当然可以写5个xpath路径。

更好的方法是使用 contanins 模糊匹配:
response.xpath('//div[contains(@id,"tms_t_")]')
本文针对XPath初学者,通过实例解析XPath路径用法,包括绝对路径、相对路径和模糊匹配技巧,帮助读者快速掌握核心概念。
417

被折叠的 条评论
为什么被折叠?



