webscraper爬数据

本文介绍了如何使用WebScraper插件无代码抓取网页数据。首先,介绍了插件的背景和官网,接着讲解了插件的安装方法。在实际操作中,以豆瓣电影为例,详细阐述了创建和配置抓取规则的过程,包括识别URL的变化规律和选择器的使用。最终,抓取的数据可以导出为CSV格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

我们偶尔需要爬取网页数据,是否有不写代码抓数据的实现方式,最近找到个webscraper插件

插件介绍

插件官网:https://www.webscraper.io/
插件slogan:Making web data extraction easy and accessible for everyone

插件安装

  • 方式一:可以科学上网的,谷歌插件市场自行搜索
  • 方式二:找个可以下载谷歌插件的网站来下载,如 CrxDL.COM,注意插件的logo,别下载错了,安装方式跟其他插件一样(自行百度)
  • 在这里插入图片描述

插件介绍

插件装好后打开浏览器调试模式,就会有这个选择项
在这里插入图片描述
这里点击“create new sitemap”,新建或导入一个脚本,我们点击新建后
在这里插入图片描述
这里我们以豆瓣为例,填写要抓取的网站名称和地址url
在这里插入图片描述
我们先观察这个网站,发现最底下点击“加载更多时”,上面url中最后page_start会变化,多翻几页发现总结得出规律:第一页值为0,后面每翻一页,这里值加20。
在这里插入图片描述
通过查询官方文档,得到一种写的方式:[0-60:20]。前面0-60,表示这里数字为0到60之间变化。冒号后面的20表示步长为20,每次增长20。整理就是翻3页,每页20条,总共60条数据。所以抓取的url为

https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=rank&page_limit=20&page_start=[0-60:20]

初步认识浏览器插件选择器,这里大家可以选择对应的抓取类型并设置属性。这个插件关键在于实践,各种属性自己尝试后会有更深的理解。
在这里插入图片描述
常见的网站格式如下,一个网站有链接,有子页面,每个页面有许多个元素块,每个元素块中有多个元素(文本,链接,图片)
在这里插入图片描述
因此我们先新建一个元素块,然后在元素块中新建各种各样的元素
如下,图片+文字这个就算是一个元素块。建议先按照示例炒过来。
这里点击select后,就可以在浏览器上抓取元素了。选择多个相同的元素后,3这里就会不断变化,最后选择4结束选择。
在这里插入图片描述
然后开始新建元素块中的元素,这里先抓一张图片,具体设置如下,注意 父类选择器为上一个选择器。
在这里插入图片描述
然后开始抓取,同时进行抓取的设置,最后 start开始抓取
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值