接着爬虫系列,继续讲解XPath定位
老司机,带你用30行代码爬取高清美女写真,附安装包+源码
实操续:爬虫基础知识,浏览器最基本的配置方法
实操续:HTML基本结构,以及数据来源,网页获取
今天继续讲解XPath定位

一、XPath直观验证工具 selenium IDE
效果展示
以百度为例,获取所有 div带id属性 的元素,被选中的在HTML背影色加深,在网页中有虚线边框

selenium IDE安装
1 .下载火狐55以内版本安装包(最新版本已经不支持了),安装完成,迅速设置禁止自动更新版本
2 .下载selenium IDE,FireXPath,firebug离线包
3 .依次把离线包拖入浏览器

4 .安装成功后,点击右上角的小虫子

5 .因为网盘容易失效,离线包资源放在群共享了

XPath格式
//div[@id]
第一部分,从哪里获取,必要
/表示从跟节点获取
//表示从当前节点下获取节点,不考虑中间层级关系
例如:
//div [@id=“content_left”]/div只会获取整个左侧div标签首层div

//div [@id=“content_left”]//div会获取整个左侧div标签

第二部分,标签名称,必要
常见块标签div,p,ul,ol
通配符*表示所有标签

第三部分,[ ]表达式修饰符,非必要
修饰符必须配合,表达式一起使用,否则报错

第四部分,@属性选择
常见属性id,class
from表单中的name,a标签里面的title也可以做属性选择

XPath内置表达式
需要写在[ ]里面
支持比较运算符,=,>,<
属性比较//*[@id=’u’]

取前3之后的a标签 //a[position()>3]

支持逻辑运算and和or,not( )
//*[@id=‘container’ or @id=‘u’]

另外在介绍两个定位函数
preceding-sibling::*定位兄弟元素
//[@id=‘u’]/preceding-sibling::

…定位父元素
//*[@id=‘u’]/…

总结:
1.使用XPath工具,有助于你快速定位元素
2.可以借助XPath工具,验证自己写没写对
3.博主在学习期间收藏了很多实用的小工具,文件比较多,放在群共享了