一. 标签属性值的提取
- href的值URL的提取:这是最常见的,我们要进入下一页、或是打开内容页……都少不了URL值,如下面这段HTML,我们来提取一下里面的URL
<ol class="page-navigator"> <li class="current"><a href="http://lab.scrapyd.cn/page/1/">1</a></li> <li><a href="http://lab.scrapyd.cn/page/2/">2</a></li> <li><a href="http://lab.scrapyd.cn/page/3/">3</a></li> <li><a href="http://lab.scrapyd.cn/page/4/">4</a></li> </ol>
这其实是我们爬虫实验室的分页,如果我们要爬取下一页,我们该如何提取URL呢?提取属性我们是用:“标签名::attr(属性名)”,比如我们要提取url表达式就是:a::attr(href),要提取图片地址的表达式就是:img::attr(src)……以此类推,好了知道scrapy给我们提供的提取变了的工具,那我们就可以提取上面的URL了,有多种方式,首先我们可以直接:
response.css("a::a
Scrapy CSS选择器实战:数据提取与定位

本文详细介绍了使用Scrapy的CSS选择器提取网页数据的方法,包括标签属性值如href和src的提取,以及标签内容的提取。通过实例展示了如何限定提取范围,确保准确获取目标数据,同时还提及了CSS高级用法。
订阅专栏 解锁全文
3985

被折叠的 条评论
为什么被折叠?



