【Python网络蜘蛛 · 7】：数据提取之xpath（附操作源码）

原创已于 2022-09-15 17:32:54 修改 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #学习

于 2022-03-05 22:57:55 首次发布

Python网络蜘蛛专栏收录该内容

16 篇文章

订阅专栏

这篇博客介绍了XPath在HTML和XML文档中查找信息的重要性，以及如何使用lxml库来解析XML。XPath是一种用于选取XML节点的语言，包括元素、属性和文本。文章通过实例展示了如何选取特定元素的文本值、属性值以及使用不同路径表达式来定位节点。此外，还演示了如何通过父节点遍历子节点来提取信息。

一、数据提取之xpath

1、为什么要学习xpath和lxml？

lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息。

2、什么是xpath？

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。

3、lxml的树结构

text = ''''<bookstore> 
            <book category="COOKING"> 
                <title lang="en">Everyday Italian</title> 
                <author>Giada De Laurentiis</author> 
                <year>2005</year> 
                <price>30.00</price> 
            </book> 
            <book category="CHILDREN"> 
                <title lang="en">Harry Potter</title> 
                <author>J K. Rowling</author> 
                <year>2005</year> 
                <price>29.99</price> 
            </book> <book category="WEB"> 
                <title lang="en">Learning XML</title> 
                <author>Erik T. Ray</author> 
                <year>2003</year>
                <price>39.95</price> 
            </book> 
            </bookstore>
        '''

上面的xml内容可以表示为下面的树结构

上面的这种结构关系在xpath被进一步细化

4、xpath的节点关系

每个XML的标签我们都称之为节点，其中最顶层的节点称为根节点。

5、xpath的语法使用

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

使用chrome插件选择标签时候，选中时，选中的标签会添加属性class="xh-highlight"

下面列出了最有用的表达式：

表达式	描述
nodename	选中该元素。
/	从根节点选取、或者是元素和元素间的过渡。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。
text()	选取文本。

6、代码演示

先安装lxml模块，安装命令：pip install lxml

# 以下是lxml的树结构
text = ''''<bookstore> 
            <book category="COOKING"> 
                <title lang="en">Everyday Italian</title> 
                <author>Giada De Laurentiis</author> 
                <year>2005</year> 
                <price>30.00</price> 
            </book> 
            <book category="CHILDREN"> 
                <title lang="en">Harry Potter</title> 
                <author>J K. Rowling</author> 
                <year>2005</year> 
                <price>29.99</price> 
            </book> <book category="WEB"> 
                <title lang="en">Learning XML</title> 
                <author>Erik T. Ray</author> 
                <year>2003</year>
                <price>39.95</price> 
            </book> 
            </bookstore>
        '''

获取所有book下面title的文本值

获取所有book下面title的lang属性值
注意：
属性值需使用@+属性名获取

获取第二个book下面author的文本值

其他路径表达式和结果

路径表达式	结果
bookstore	选择bookstore元素。
/bookstore	选取根元素bookstore。注释:假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径!
bookstore/book	选择属于bookstore元素的后代的所有book元素，而不管它们位于bookstore 之下的 bookstorel/book 什么位置。
//book	选取所有book子元素，而不管它们在文档中的位置。
bookstorel/book	选择属于bookstore元素的后代的所有book元素，而不管它们位于bookstore 之下的什么位置。
//book/title/@lang	选择所有的book下面的title中的lang属性的值。
l/book/title/text()	选择所有的book下面的title的文本。

通过找到父节点遍历子节点获取信息

text = ''''<div> 
                <book category="COOKING"> 
                    <title lang="en">Everyday Italian</title> 
                    <author>Giada De Laurentiis</author> 
                    <year>2005</year> 
                    <price>30.00</price> 
                </book> 
                <book category="CHILDREN"> 
                    <title lang="en">Harry Potter</title> 
                    <author>J K. Rowling</author> 
                    <year>2005</year> 
                    <price>29.99</price> 
                </book> <book category="WEB"> 
                    <title lang="en">Learning XML</title> 
                    <author>Erik T. Ray</author> 
                    <year>2003</year>
                    <price>39.95</price> 
                </book> 
            </div>
        '''