Scrapy框架爬虫学习

最新推荐文章于 2021-09-29 11:32:49 发布

S-su

最新推荐文章于 2021-09-29 11:32:49 发布

阅读量331

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/Sunshine_20201/article/details/105979873

7 篇文章

订阅专栏

Scrapy框架爬取新浪微博

我们访问爬虫过程中，出现“403 Forbidden”及“您的IP访问频率太高”，这是由于网站采取了一些反爬虫措施。
如封IP：服务器会检测到某个IP在单位时间内的请求次数，如果超过阈值，就会直接拒绝服务，返回一些错误信息。解决：使用代理，伪装我们的IP，让服务器识别不出来是由我们本机发起的请求。

爬取博主：周冬雨
分析Ajax链接（AJAX = 异步 JavaScript 和 XML。 AJAX 是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用 AJAX）如果需要更新内容，必需重载整个网页面。有很多使用 AJAX 的应用程序案例：新浪微博、Google 地图、开心网等等。）：在谷歌浏览器中打开开发者工具，查看网页代码，分析Ajax链接：https://m.weibo.cn/api/container/getIndex?containerid=231051_-followerstagrecomm-1916655407-1042015:tagCategory_050&luicode=10000011&lfid=231051-followers-1916655407-_1042015:tagCategory_050&type=uid&value=1259110474&since_id=2我们只需要构造这个请求的参数。同样可以分析用户详情的Ajax链接、用户微博列表的Ajax链接。

创建一个项目：scrapy startproject weibo
新建一个Spider，并修改代码。这是我学习parse()的参考文章https://www.cnblogs.com/123456www/p/12354964.html
创建Item：
提取数据：
数据清洗（数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。）
Cookies池和代理池的对接（对应反爬）
运行