背景
我们偶尔需要爬取网页数据,是否有不写代码抓数据的实现方式,最近找到个webscraper插件
插件介绍
插件官网:https://www.webscraper.io/
插件slogan:Making web data extraction easy and accessible for everyone
插件安装
- 方式一:可以科学上网的,谷歌插件市场自行搜索
- 方式二:找个可以下载谷歌插件的网站来下载,如 CrxDL.COM,注意插件的logo,别下载错了,安装方式跟其他插件一样(自行百度)
插件介绍
插件装好后打开浏览器调试模式,就会有这个选择项
这里点击“create new sitemap”,新建或导入一个脚本,我们点击新建后
这里我们以豆瓣为例,填写要抓取的网站名称和地址url
我们先观察这个网站,发现最底下点击“加载更多时”,上面url中最后page_start会变化,多翻几页发现总结得出规律:第一页值为0,后面每翻一页,这里值加20。
通过查询官方文档,得到一种写的方式:[0-60:20]。前面0-60,表示这里数字为0到60之间变化。冒号后面的20表示步长为20,每次增长20。整理就是翻3页,每页20条,总共60条数据。所以抓取的url为
https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=rank&page_limit=20&page_start=[0-60:20]
初步认识浏览器插件选择器,这里大家可以选择对应的抓取类型并设置属性。这个插件关键在于实践,各种属性自己尝试后会有更深的理解。
常见的网站格式如下,一个网站有链接,有子页面,每个页面有许多个元素块,每个元素块中有多个元素(文本,链接,图片)
因此我们先新建一个元素块,然后在元素块中新建各种各样的元素
如下,图片+文字这个就算是一个元素块。建议先按照示例炒过来。
这里点击select后,就可以在浏览器上抓取元素了。选择多个相同的元素后,3这里就会不断变化,最后选择4结束选择。
然后开始新建元素块中的元素,这里先抓一张图片,具体设置如下,注意 父类选择器为上一个选择器。
然后开始抓取,同时进行抓取的设置,最后 start开始抓取