Python爬虫(二)数据解析Xpath

男神的世界不拥挤

于 2021-07-05 13:54:36 发布

阅读量215

点赞数

分类专栏： requests

本文链接：https://blog.youkuaiyun.com/weixin_44669124/article/details/118486745

版权

requests 专栏收录该内容

5 篇文章

订阅专栏

这篇博客介绍了如何利用Python的lxml库中的XPath方法来解析HTML文档。首先讲解了XPath的安装和解析原理，然后通过实例展示了如何实例化etree对象、加载数据以及使用XPath表达式进行标签定位和文本数据提取。示例中演示了如何获取网页上的城市数据，通过混合使用绝对路径和属性定位提取所需信息。最后，文章强调了XPath方法返回值为列表的事实，并提供了实战代码片段来爬取并打印所有城市名称。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

xpath的使用

安装
-pip install lxml
解析原理(流程)
-实例化一个etree对象,将需要解析的数据加载到改对象中
-调用etree对象中的xpath方法结合不同的xpath表达式进行标签定位和文本数据提取
etree对象实例化
- etree.parse(“FilePath”):将本地数据加载到etree对象中
- etree.HTML(page_text):将爬取的数据加载到该对象中
html中所有标签是遵循了树状结构
xpath方法的返回值是一个列表

使用

标签定位
- 最左侧/：表示从根标签开始定位
- 最左侧//:任意标签开始定位
- 非最左侧//：表示多个层级
- 属性定位://tagName[@attrName = ‘Value’]
- 索引定位:tagNmae[index],index索引从1开始
- 模糊匹配:
- //div[contains(@class,‘ng’)]
- //div[starts-with(@class,‘ta’)]
取属性
- @attrName

实战:爬取所有城市

from lxml import etree
# 目的：使得xpath表达式具有更强的通用性
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url,headers=headers).text

tree = etree.HTML(page_text)
# hot_cities = tree.xpath('//div[@class="bottom"]/ul/li/a/text()')
all_cities = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a/text() | //div[@class="bottom"]/ul/li/a/text()')
print(all_cities)