webscraper爬数据

最新推荐文章于 2025-02-23 05:58:32 发布

唐木

最新推荐文章于 2025-02-23 05:58:32 发布

阅读量502

点赞数

分类专栏： DIY

本文链接：https://blog.youkuaiyun.com/xyznol/article/details/108684673

版权

本文介绍了如何使用WebScraper插件无代码抓取网页数据。首先，介绍了插件的背景和官网，接着讲解了插件的安装方法。在实际操作中，以豆瓣电影为例，详细阐述了创建和配置抓取规则的过程，包括识别URL的变化规律和选择器的使用。最终，抓取的数据可以导出为CSV格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

我们偶尔需要爬取网页数据，是否有不写代码抓数据的实现方式，最近找到个webscraper插件

插件介绍

插件官网：https://www.webscraper.io/
插件slogan：Making web data extraction easy and accessible for everyone

插件安装

方式一：可以科学上网的，谷歌插件市场自行搜索
方式二：找个可以下载谷歌插件的网站来下载，如 CrxDL.COM,注意插件的logo，别下载错了,安装方式跟其他插件一样（自行百度）

插件介绍

插件装好后打开浏览器调试模式，就会有这个选择项
在这里插入图片描述
这里点击“create new sitemap”，新建或导入一个脚本，我们点击新建后

这里我们以豆瓣为例，填写要抓取的网站名称和地址url

我们先观察这个网站，发现最底下点击“加载更多时”，上面url中最后page_start会变化，多翻几页发现总结得出规律：第一页值为0，后面每翻一页，这里值加20。
在这里插入图片描述
通过查询官方文档，得到一种写的方式：[0-60:20]。前面0-60，表示这里数字为0到60之间变化。冒号后面的20表示步长为20，每次增长20。整理就是翻3页，每页20条，总共60条数据。所以抓取的url为

https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=rank&page_limit=20&page_start=[0-60:20]

初步认识浏览器插件选择器，这里大家可以选择对应的抓取类型并设置属性。这个插件关键在于实践，各种属性自己尝试后会有更深的理解。
在这里插入图片描述
常见的网站格式如下，一个网站有链接，有子页面，每个页面有许多个元素块，每个元素块中有多个元素（文本，链接，图片）

因此我们先新建一个元素块，然后在元素块中新建各种各样的元素
如下，图片+文字这个就算是一个元素块。建议先按照示例炒过来。
这里点击select后，就可以在浏览器上抓取元素了。选择多个相同的元素后，3这里就会不断变化，最后选择4结束选择。
在这里插入图片描述
然后开始新建元素块中的元素，这里先抓一张图片，具体设置如下，注意父类选择器为上一个选择器。

然后开始抓取，同时进行抓取的设置，最后 start开始抓取