Python爬虫：数据解析和提取——XPath（简洁少字版）

原创

已于 2022-04-07 13:48:38 修改 · 641 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

于 2022-03-28 15:58:28 首次发布

本文介绍了Python爬虫中XPath的使用，包括安装、导入与实例化，详细讲解了XPath规则，如所有节点、子节点、父节点、文本获取、属性匹配等，并通过代码实例展示了不同选择器的应用，帮助读者掌握XPath在爬虫数据提取中的应用。

一.安装

pip3 install lxml

二.导入与实例化

导入

from lxml import etree

实例化

本地对象

html=etree.parse(fliepath)

网页对象(page_text为requests请求获得)

html=etree.HTML(page_text)

三.XPath规则

代码实例

page_text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

1.所有节点

result=html.xpath('//*')
#运行结果
[<Element html at 0x7fe3287b7b40>, <Element body at 0x7fe31881bb80>, <Element div at 0x7fe31881bb40>, <Element ul at 0x7fe31881ba80>, <