Scrapy Selector

最新推荐文章于 2024-03-12 10:16:40 发布

辍学当主播

最新推荐文章于 2024-03-12 10:16:40 发布

阅读量502

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_41518383/article/details/80291671

一、XPath选择器

（一）、节点种类
1、根节点
2、元素节点：html、body、div等等
2、属性节点：class、href等等
3、文本节点
（二）、节点关系
1、父子：相差一级
2、兄弟：相同等级
3、祖先/后裔
（三）、基本语法
1、/：描述一个从根开始的绝对路径
ep：/html/head、/html/body/div
2、E1/E2：选中E1子节点中的所有E2
ep：body/div
2、//E：选中根节点中的E
ep：//div
3、E1//E2：选中E1后裔节点中的所有E2
ep：body//div
4、E/text()：选中E的文本子节点
ep：a/text()
5、E/*：选中E的所有元素子节点
ep：/html/*、/html/body/div//*
6、*/E：选中孙节点中的所有E
ep：//div/*/img
7、E/@ATTR：选中E的ATTR属性
ep：//img/@src、div/@class
8、E/@*：选中E的所有属性
ep：//img/@*、div/@*
8、.：选中当前节点
ep：./img
9、..：选中当前节点的父节点
ep：//img/..
10、node：查找某个特定节点或包含某个特定值的节点
ep：
//div[2]：查找所有节点下的第2个div、
//div[last()]：查找所有节点下的最后一个div、
//div[position()<=4]：查找所有节点下的前4个div、
//div[@class]：查找所有节点下带有class属性的div、
//div[@class="images"]：查找所有节点下带有class属性且为images的div
（四）、常用函数
1、string(arg)：返回参数的字符串值
可使extract()的所有值合为一体输出。
2、contains(str1,str2)：判断str1中是否包含str2，返回bool值

二、CSS选择器

类似于XPath，空格相当于//，>相当于/，::text相当于/text()。

基本语法
1、E：选中E元素
ep：img、div
2、E1,E2：选中E1和E2元素
3、E1 E2：选中E1后裔元素中的E2元素
4、E1>E2：选中E1子元素中的E2元素
5、[ATTR]：选中包含ATTR属性的元素
5、[ATTR=VALUE]：选中包含ATTR属性且为VALUE的元素
6、E:nth-child(n)：选中其父节点的第n个E元素(first-child为第一个，last-child为最后一个)

ep：div>a:nth-child(1)：选中每个div的第一个a
7、E::text：选中E元素的文本子节点