Web scraper 爬虫傻瓜教程（不断更新中）

最新推荐文章于 2025-07-28 09:18:48 发布

TAILEMI

最新推荐文章于 2025-07-28 09:18:48 发布

阅读量2.8w

点赞数 23

CC 4.0 BY-SA版权

分类专栏：教学文章标签：爬虫

7 篇文章

订阅专栏

安装

Web scraper只支持chrome浏览器，可以从chrome网上应用店下载这个插件，安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制，模拟人手动操作浏览器，适合轻度的数据爬取，而且免费！

当我们想要抓取某网页的时候，需要调出来Web scraper的开发界面，这点开发人员肯定很懂。
不懂的下面提供几种方法：

windows 系统下可以使用快捷键 F12，有的型号的笔记本需要按 Fn+F12
Mac 系统下可以使用快捷键 command+option+i
在网页右键点击检查（ctrl+shift+i）
直接在 Chrome 界面上操作，点击设置 $\rightarrow$ 更多工具 $\rightarrow$ 开发者工具
打开之后长这样，如果不在网页的下方就点这三个竖着的小圆点，给它换到网页下方。

换好之后长这样，就可以看的Web scraper插件了~

首先需要创建一个新的爬取：Create new sitemap $\rightarrow$ Create sitemap
Import sitemap是导入脚本
添加请求头，命名和将我们要爬取的网页url填好之后点Create Sitemap
这里要说明一下，一个Sitemap可以有多个Selector，
理解工具

创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
1）Id - 爬取标题的命名，自己随意取
2）Type - 抓取数据的类型名字

在这里插入图片描述
1）Selector graph - 查看爬虫逻辑
2）Scrape - 运行爬虫
3）Browse - 查看数据
4）Export data as CSV - 保存数据

任务：
账号：中国日报（https://weibo.com/chinadailywebsite?is_all=1）
时间：2020年3月11号——2021年3月10号
关键词：新冠
爬取符合以上条件的所有推送的文字部分，以及发布时间，和转发，评论和点赞的数量

利用微博自己的高级搜索，锁定关键词和具体时间段

如果抓取多页网站，Start url可以设定page=[2-5]表示第2页到第5页，如果是步长为2页，则可以:[2-5:2]。
建立selector，Type选择Element scroll down用于爬取下拉滚动式的页面结构体。
建立新的selector，负责展开全文。Type选择Element click来模拟点击。
建立新的selector，负责抓取正文内容。Type选择Text。
建立新的selector，负责抓取时间日期。Type选择Text。
同理，建立新的selector，负责抓取转赞评。Type选择Text。就不放图了。