XPath数据解析

最新推荐文章于 2024-02-04 19:12:14 发布

吉吉君

最新推荐文章于 2024-02-04 19:12:14 发布

阅读量674

点赞数 1

文章标签： xpath

本文链接：https://blog.youkuaiyun.com/jijijun/article/details/109484426

版权

本文介绍了XPath数据解析相关内容。包括解析原理，需实例化etree对象并加载页面源码，调用xpath方法结合表达式定位标签和捕获内容，还提及环境安装。阐述了实例化etree对象的方式，以及xpath表达式的属性定位、索引定位、取文本和取属性等操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

XPath数据解析

xpath解析原理：
①：实例化一个etree对象，且需要将被解析的页面源码数据加载到该对象中
②：调用对象中的xpath方法，结合xpath表达式实现标签的定位和内容的捕获
③：环境安装pip install lxml
如何实例化一个etree对象:from lxml import etree
①：将本地的html文档当中的源码数据加载到etree对象中：etree.parse(filePath)
②：可以将从互联网上获取的源码数据加载到该对象中：etree.HTML('page_text')
③：xpath('xpath表达式')
xpath表达式

import requests
from lxml import etree
if __name__ == '__main__':
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
    }
    #实例化好了一个etree对象，且将被解析的源码加载到了该对象中
    tree = etree.parse('soguo.html')
    #xpath可以通过层级关系进行标签的定位
    #第一个'/'表示的是从根结点开始定位，一个‘/’表示一个层级。
    #//：表示可以从任意位置开始定位
    #r = tree.xpath('//div[@class="pos-more"]')
    #属性定位：//div[@class="pos-more]"  tag[@attrName="attrValue"]
    #r = tree.xpth('//div[@class="pos-more"]/p[3]')#索引定位：获取div中的第三个p标签
    #取文本：
    r = tree.xpth('//div[@class="pos-more"]//li[5]/a/text()')[0]
    #获取div下面两个层级第五个li标签中的p标签
    #/text:标签中所有直系的文本内容
    #//text:标签下的所有文本内容
    print(r)