利用python爬虫(part7)--初识Xpath之Node节点

最新推荐文章于 2023-01-17 13:53:49 发布

GUI Research Group

最新推荐文章于 2023-01-17 13:53:49 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 计算机文章标签： python xpath XML 爬虫

本文链接：https://blog.youkuaiyun.com/m0_37422217/article/details/105358547

python 同时被 2 个专栏收录

305 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

计算机

18 篇文章

订阅专栏

这篇博客介绍了如何使用Python的lxml模块通过Xpath解析HTML文档。内容包括Xpath的基本概念、节点的关系、节点类型，如Document、Element、Text、Attribute，并通过实例解释了Xpath路径表达式的含义和用途。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习笔记

编辑器：Sublime

PS:因为爬虫接触Xpath,由于HTML的语法和XML很类似，所以这里想把Xpath都应用在HTML中。注意，这里我们用python进行分析，会使用lxml模块。

注意：这里的理论部分是关于XML文档的，但是介于HTML和XML的相似性，大家可以自行做类比，有的地方我也会用HTML和XML做类比。

文章目录

Xpath简介

Xpath语言的核心是给出用于从XML文档中查找标记的语法规则，即编写Xpath路径表达式，以便使应用程序更加方便、快捷地从XML文件中检索到所需要的的数据。

Xpath路径表达式

一个Xpath路径表达式，简称Xpath表达式，由若干"定位步"所构成。Xpath路径表达式的核心是给出一个匹配XML文件中标记的模式，也可以说Xpath路径表达式的核心是满足一定条件的标记所组成的集合。

这里我们结合一个简单的HTML文档，来了解一下Xpath路径表达式：

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>title</title>
</head>
<body>
	<div class="animal">
	    <p class="name">
			<a title="Tiger"></a>

了解本专栏

超级会员免费看