Scrapy css选择器提取数据===留存用

Scrapy CSS选择器实战：数据提取与定位

最新推荐文章于 2023-10-01 15:28:48 发布

小赖同学啊

最新推荐文章于 2023-10-01 15:28:48 发布

阅读量452

点赞数

CC 4.0 BY-SA版权

分类专栏： python 自动化测试(app pc API) 文章标签： python css提取

本文链接：https://blog.youkuaiyun.com/testManger/article/details/109802695

python 同时被 2 个专栏收录

193 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

自动化测试(app pc API)

92 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了使用Scrapy的CSS选择器提取网页数据的方法，包括标签属性值如href和src的提取，以及标签内容的提取。通过实例展示了如何限定提取范围，确保准确获取目标数据，同时还提及了CSS高级用法。

一. 标签属性值的提取

href的值URL的提取：这是最常见的，我们要进入下一页、或是打开内容页……都少不了URL值，如下面这段HTML，我们来提取一下里面的URL

<ol class="page-navigator">
  <li class="current"><a href="http://lab.scrapyd.cn/page/1/">1</a></li>
  <li><a href="http://lab.scrapyd.cn/page/2/">2</a></li>
  <li><a href="http://lab.scrapyd.cn/page/3/">3</a></li>
  <li><a href="http://lab.scrapyd.cn/page/4/">4</a></li>
</ol>

这其实是我们爬虫实验室的分页，如果我们要爬取下一页，我们该如何提取URL呢？提取属性我们是用：“标签名::attr(属性名)”，比如我们要提取url表达式就是：a::attr(href)，要提取图片地址的表达式就是：img::attr(src)……以此类推，好了知道scrapy给我们提供的提取变了的工具，那我们就可以提取上面的URL了，有多种方式，首先我们可以直接：