利用python爬虫(part7)--初识Xpath之Node节点

这篇博客介绍了如何使用Python的lxml模块通过Xpath解析HTML文档。内容包括Xpath的基本概念、节点的关系、节点类型,如Document、Element、Text、Attribute,并通过实例解释了Xpath路径表达式的含义和用途。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习笔记

编辑器:Sublime

PS:因为爬虫接触Xpath,由于HTML的语法和XML很类似,所以这里想把Xpath都应用在HTML中。注意,这里我们用python进行分析,会使用lxml模块。

注意:这里的理论部分是关于XML文档的,但是介于HTML和XML的相似性,大家可以自行做类比,有的地方我也会用HTML和XML做类比。



Xpath简介

Xpath语言的核心是给出用于从XML文档中查找标记的语法规则,即编写Xpath路径表达式,以便使应用程序更加方便、快捷地从XML文件中检索到所需要的的数据。

  • Xpath路径表达式

一个Xpath路径表达式,简称Xpath表达式,由若干"定位步"所构成。Xpath路径表达式的核心是给出一个匹配XML文件中标记的模式,也可以说Xpath路径表达式的核心是满足一定条件的标记所组成的集合。

这里我们结合一个简单的HTML文档,来了解一下Xpath路径表达式:

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>title</title>
</head>
<body>
	<div class="animal">
	    <p class="name">
			<a title="Tiger"></a>
	
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GUI Research Group

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值