爬前叨叨
已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个《掘金网》,我们去爬取一下他的全站用户数据。
爬取思路
获取全站用户,理论来说从1个用户作为切入点就可以,我们需要爬取用户的关注列表,从关注列表不断的叠加下去。
随便打开一个用户的个人中心

绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人?那么你还需要继续找一个入口,这个用户一定要关注了别人。选择关注列表,是为了让数据有价值,因为关注者里面可能大量的小号或者不活跃的账号,价值不大。
我选了这样一个入口页面,它关注了3个人,你也可以选择多一些的,这个没有太大影响!
https://juejin.im/user/55fa7cd460b2e36621f07dde/following
我们要通过这个页面,去抓取用户的ID

得到ID之后,你才可以拼接出来下面的链接
https://juejin.im/user/用户
本文介绍了如何使用Python的Scrapy框架爬取掘金网的全站用户数据。首先,从一个用户入口出发,通过其关注列表不断获取更多用户信息。重点讲解了爬取思路,包括选择关注列表作为数据源,以及如何提取用户ID。接着,详细展示了爬虫项目的创建,编写主入口文件和解析方法,最终实现了数据的存储。文章还提出了爬虫的扩展方向,如多页爬取、多线程和分布式爬虫等。
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



