文章目录
-
xpath基本概念
-
xpath解析原理
-
环境安装
-
如何实例化一个etree对象:
-
xpath(‘xpath表达式’)
-
xpath爬取58二手房实例
-
爬取网址
-
完整代码
-
效果图
-
xpath图片解析下载实例
-
爬取网址
-
完整代码
-
效果图
-
xpath爬取全国城市名称实例
-
爬取网址
-
完整代码
-
效果图
-
xpath爬取简历模板实例
-
爬取网址
-
完整代码
-
效果图
xpath基本概念
xpath解析:最常用且最便捷高效的一种解析方式。通用性强。
xpath解析原理
1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获。
环境安装
pip install lxml
如何实例化一个etree对象:
from lxml import etree
1.将本地的html文件中的远吗数据加载到etree对象中:
etree.parse(filePath)
2.可以将从互联网上获取的原码数据加载到该对象中:
etree.HTML(‘page_text’)
xpath(‘xpath表达式’)
-
/:表示的是从根节点开始定位。表示一个层级
-
//:表示多个层级。可以表示从任意位置开始定位
-
属性定位://div[@class='song'] tag[@attrName='attrValue']
-
索引定位://div[@class='song']/p[3] 索引从1开始的
-
取文本