Python3网络爬虫开发实战（3）网页数据的解析提取

Bigcrab__

已于 2024-07-25 09:14:11 修改

阅读量1k

点赞数 16

分类专栏： # Python3网络爬虫开发实战文章标签：爬虫 python 开发语言

于 2024-07-25 09:13:20 首次发布

本文链接：https://blog.youkuaiyun.com/m0_72947390/article/details/140680048

版权

在这里插入图片描述

一、XPath

XPath 的全称 XML Path Language，即 XML 路径语言，用来在 XML 文档中查找信息，同样适用于 HTML 文档的搜索；

表达式	描述
//*	选取所有节点
/	取子节点
//	取子孙节点
.	选取当前节点
…	选取当前节点的父节点
/@href	选取节点的href属性
/[@class=“item”]	选择 class 为 item 的子节点
/text()	获取文本
//[contains(@class, “li”)]	选择 class 中包含 li 的子节点
//[contains(@class, “li”) and contains(@class, “ll”)]	选择 class 中包含 li 和 ll 的子节点
//[contains(@class, “li”) and @name=“item”]	选择 class 包含 li 且 name 属性为 item 的节点
//[contains(text(), “内容”]	选择文本中包含内容的节点
//th[@class="id " and position()=1]	选择 class 为 id 的第一个位置的 th 节点
//div[(text()=‘更新’)]	选择文本为更新的 div 节点

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()❤️]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=‘eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

from lxml import etree

text = 'html 代码'
html = etree.HTML(text) # 会自动修正 HTML 代码
result = html.xpath('xpath 选择器')