爬虫（xpath）

最新推荐文章于 2024-06-21 18:47:26 发布

嘟嘟嘟托马斯

最新推荐文章于 2024-06-21 18:47:26 发布

阅读量275

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_43281189/article/details/87798264

1. 什么是xpath

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

2. xpath在爬虫中的使用

2.1 导入第三方模块：
	import lxml.etree as etree
2.2 将爬取到的html内容转化为xpath可以解析的格式：
	selector = etree.HTML(html)
2.3 xpath的常见表达式：
	nodename			选取此节点的所有子节点
	/					从当前节点选取直接子节点
	//					从当前节点选取子孙节点
	.					选取当前节点
	..					选取当前节点的父节点
	@					选取属性
	*					通配符
	@*					选取所有属性
	[@attrib]			选取具有给定属性的所有元素
	[@attrib='value]	选取给定属性具有给定值的所有元素
	[tag]				选取所有具有指定元素的直接子节点
	text()			选取此节点的内容（列表）
	[tag='text']		选取所有具有指定元素并且文本内容是text的节点
2.4 选取出需要的信息：
	例：courseDetails = selector.xpath('//div[@class="course-
	card-container"]')