学习笔记
编辑器:Sublime
PS:因为爬虫接触Xpath,由于HTML的语法和XML很类似,所以这里想把Xpath都应用在HTML中。注意,这里我们用python进行分析,会使用lxml模块。
注意:这里的理论部分是关于XML文档的,但是介于HTML和XML的相似性,大家可以自行做类比,有的地方我也会用HTML和XML做类比。
Xpath简介
Xpath语言的核心是给出用于从XML文档中查找标记的语法规则,即编写Xpath路径表达式,以便使应用程序更加方便、快捷地从XML文件中检索到所需要的的数据。
- Xpath路径表达式
一个Xpath路径表达式,简称Xpath表达式,由若干"定位步"所构成。Xpath路径表达式的核心是给出一个匹配XML文件中标记的模式,也可以说Xpath路径表达式的核心是满足一定条件的标记所组成的集合。
这里我们结合一个简单的HTML文档,来了解一下Xpath路径表达式:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>title</title>
</head>
<body>
<div class="animal">
<p class="name">
<a title="Tiger"></a>