我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析
1. xpath 的介绍
xpath是一门在XML文档中查找信息的语言
优点:
- 可以在xml中找信息
- 支持HTML的查找
- 可以通过元素和属性进行导航
但是Xpath需要依赖xml的库,所以我们需要去安装lxml的库。
安装lxml库
我们先要安装lxml的库,直接在pycharm里安装即可:
XML的树形结构:
根元素-元素-属性-文本
使用XPath选取节点:
- nodename: 选取此节点的所有节点
- /从根节点选择
- // 从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置
- . 选择当前节点
- … 选择当前节点的父节点(此处是两个点,浏览器默认显示3