Web scraper 爬虫傻瓜教程(不断更新中)

安装

  • Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,适合轻度的数据爬取,而且免费
    在这里插入图片描述

基本操作

打开Web scraper

当我们想要抓取某网页的时候,需要调出来Web scraper的开发界面,这点开发人员肯定很懂。
不懂的下面提供几种方法:

  • windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12
  • Mac 系统下可以使用快捷键 command+option+i
  • 在网页右键点击检查(ctrl+shift+i)
  • 直接在 Chrome 界面上操作,点击设置 → \rightarrow 更多工具 → \rightarrow 开发者工具
    打开之后长这样,如果不在网页的下方就点这三个竖着的小圆点,给它换到网页下方。
    在这里插入图片描述
    在这里插入图片描述
    换好之后长这样,就可以看的Web scraper插件了~
    在这里插入图片描述

使用Web scraper

创建爬取

  1. 首先需要创建一个新的爬取:Create new sitemap → \rightarrow Create sitemap
    Import sitemap是导入脚本
    在这里插入图片描述
  2. 添加请求头,命名和将我们要爬取的网页url填好之后点Create Sitemap
    这里要说明一下,一个Sitemap可以有多个Selector,
    在这里插入图片描述
  3. 理解工具
    在这里插入图片描述
    创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
    1)Id - 爬取标题的命名,自己随意取
    2)Type - 抓取数据的类型名字
  • Text(文本)选择器;
  • Link(链接)选择器;
  • Popup LINK(弹出链接)选择器;
  • Image(图像)选择器;
  • Table(表格)选择器;
  • Element attribute(元素属性)选择器;
  • HTML 选择器;
  • Element;
  • Element scroll down(滑动);
  • Element click(点击);
  • Grouped(组块)选择器。
    在这里插入图片描述
    3)selector - CSS 选择器选取所需元素;
    4)multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中;
    5)delay - 选择器生效前的延迟时长;
    6)parent selectors - 为此选择器选择母选择器以产生选择器树形结构;
    7)文本选择器(Text selector);
    8)链接选择器(Link selector);
    9)元素选择器(Element selector)。
    在这里插入图片描述

运行爬虫,查看数据

在这里插入图片描述
1)Selector graph - 查看爬虫逻辑
2)Scrape - 运行爬虫
3)Browse - 查看数据
4)Export data as CSV - 保存数据

这里讲一个复杂一点的例子帮助大家学习

  • 任务:
    账号:中国日报(https://weibo.com/chinadailywebsite?is_all=1)
    时间:2020年3月11号——2021年3月10号
    关键词:新冠
    爬取符合以上条件的所有推送的文字部分,以及发布时间,和转发,评论和点赞的数量
  1. 利用微博自己的高级搜索,锁定关键词和具体时间段
    在这里插入图片描述
    如果抓取多页网站,Start url可以设定page=[2-5]表示第2页到第5页,如果是步长为2页,则可以:[2-5:2]。
  2. 建立selector,Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
    在这里插入图片描述
  3. 建立新的selector,负责展开全文。Type选择Element click来模拟点击。
    在这里插入图片描述
  4. 建立新的selector,负责抓取正文内容。Type选择Text。
    在这里插入图片描述
  5. 建立新的selector,负责抓取时间日期。Type选择Text。
    在这里插入图片描述
  6. 同理,建立新的selector,负责抓取转赞评。Type选择Text。就不放图了。

注意:每次选择网页元素一定要点击Mutiple,从top到bottom选择两次自己要抓取的内容,比如要抓取微博推送内容,抓取该页面第一条和第二条,接下来板块都会自动抓取。
speed要调整一下,不然抓取的内容会不全。

参考:

  1. 如何使用web scraper收集大量微博信息
  2. 使用Selenium实现微博爬虫(预登录、展开全文、翻页)
  3. Webscraper爬取使用总结(持续更新)
  4. Web Scraper官网教程
  5. 翻页选择器Element click selector --webscraper操作手册
  6. web scraper 里的 Element click 模拟点击「加载更多」
  7. Web Scraper 使用教程(五)- 进阶用法(Element scroll down)
  8. Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07
  9. web scraper 爬取微博粉丝性别以及微博内容
  10. web scraper中Selectors解析
  11. 简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
  12. 简易数据分析
  13. Web Scraper傻瓜式爬虫插件之进阶套路
  14. 有关webscraper的问题,看这个就够了
  15. 爬取2000篇 Matrix 文章,这是一份可视化踹门教程
  16. 介绍一款好用又易学的爬虫工具:web scraper
  17. Web Scraper 教程
  18. web scraper 入门到精通之路
  19. 不写代码,超级简单实用的爬虫工具:web scraper!
  20. Web Scraper教程
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值