Python爬虫入门教程 3-100 美空网数据爬取

最新推荐文章于 2019-08-26 15:49:19 发布

原创最新推荐文章于 2019-08-26 15:49:19 发布 · 3.6w 阅读

CC 4.0 BY-SA版权

梦想橡皮擦-独家版权，禁止转载

文章标签：

118 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了使用Python爬虫爬取美空网关注对象数据的过程，包括分析网站结构、选择存储方式（MongoDB）、处理反扒机制，以及爬虫代码实现。通过创建类来生成分页链接，使用正则表达式抓取数据，并通过多线程进行高效抓取。最终将数据存储到MongoDB中，提供了关键代码段和相关资源链接。

从今天开始，我们尝试用2篇博客的内容量，搞定一个网站叫做“美空网”网址为：http://www.moko.cc/，这个网站我分析了一下，我们要爬取的图片在下面这个网址

http://www.moko.cc/post/1302075.html

然后在去分析一下，我需要找到一个图片列表页面是最好的，作为一个勤劳的爬虫coder，我找到了这个页面

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html

列表页面被我找到了，貌似没有分页，这就简单多了，但是刚想要爬，就翻车了，我发现一个严重的问题。

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html

我要做的是一个自动化的爬虫，但是我发现，出问题了，上面那个黄色背景的位置是啥？

ID，昵称，个性首页，这个必须要搞定。

我接下来随机的找了一些图片列表页，试图找到规律到底是啥？

了解本专栏

19 条评论

wulimingde 2020.10.28
感谢大佬分享，很详细。
- 梦想橡皮擦回复wulimingde 2021.07.22
  案例过期，可以在这里看复盘文章 https://dream.blog.youkuaiyun.com/article/details/118831575

xnzjwc 2022.01.07
博主好，这个案例的复盘看过了，反爬虫思路那里有点儿疑问，咱们这种准备一堆的header头，随机取一个去request，那对方网站服务器，会不会发现咱同一IP多个header头请求现象，然后判定为是爬虫的几率还是挺大的吧。
- 梦想橡皮擦回复PI大星 2022.03.08
  可以，但是这模块不是很稳定
- PI大星回复梦想橡皮擦 2022.03.07
  可以用fake_useragent吗？
- 梦想橡皮擦回复xnzjwc 2022.01.08
  一般是不会的

夜深人静推公式 2020.09.10
数据库用MySQL可以吗？
- 夜深人静推公式回复梦想橡皮擦 2020.09.10
  [reply]hihell[/reply]好滴，
- 梦想橡皮擦回复夜深人静推公式 2020.09.10
  [reply]weixin_45848751[/reply]可以的

qq_38467563 2019.11.23
感谢作者的分享，作为我爬虫的教材。顺便分享一点，user-agent的数据准备，可以使用 fake_useragent 模块，UserAgent.random就可以
- 梦想橡皮擦回复qq_38467563 2021.07.22
  案例过期，可以在这里看复盘文章 https://dream.blog.youkuaiyun.com/article/details/118831575
- 梦想橡皮擦回复qq_38467563 2019.11.25
  [reply]qq_38467563[/reply] 不客气

漫步夕阳下 2019.02.13
坚持打卡第二天，另外mongdb官网下不下来,找了个百度云链接也超级慢
- 梦想橡皮擦回复漫步夕阳下 2021.07.22
  案例过期，可以在这里看复盘文章 https://dream.blog.youkuaiyun.com/article/details/118831575