GitHub热榜，收获12200颗星！能自动登入25个主流网站爬虫库！-优快云博客

相信很多人都是学Python从爬虫开始，尤其是2年前爬虫非常火爆！我依稀记得在知乎上有非常多的帖子讲的是关于Python爬虫的文章。小编也是那个时候对Python爬虫开始着迷的，学习了很多关于爬虫和反爬的知识，爬虫的西瓜皮框架。

但是越深入发现爬虫涉及了非常多的复杂的知识，需要对网络协议，Javascript都要了解，而且最烦人的是如果破解登入问题。今天小编在逛GitHub的时候发现一个非常牛逼的repo，能自动登入25个主流的网站。

作者应该是一个厉害的爬虫爱好者，对常见的爬虫的框架和技术非常了解。里面写了很多网站的爬虫示例代码，很给力啊，看来是真爱爬虫！有很多网站都是小编非常热衷的网站。

几乎涵盖了很多主流的网站，比如经常爬的拉勾，豆瓣，虾米音乐，淘宝，优快云，百度贴吧，知乎，网易云音乐，糗事百科，B站，果壳等等网站。

爬虫其实涉及几个关键的技术：

如何破解登入；
解析对方的cookie找到隐藏的url；
需要很多代理的IP 防止被封；
断点续传；
高速用爬虫的框架scrapy进行快速的数据采集；

小编曾经有一段时间爬网易云音乐，为了分析网站的内容熬了好几个夜晚，一直在解析对方的加密链接，寻找隐藏的url，煞费苦心。

还有一个就是淘宝的登入，必须要用selenium进行模拟登入，而selenium的学习成本其实不低，你需要对这个框架进行系统的了解。

现在好了，有大神直接把爬虫的代码和方法开源了，真是福利啊！我们挑选一个网站来看一下源码和思路，比如选豆瓣这个网站的爬虫源码来学习一下。

作者写了一个非常工整的豆瓣登入的类，用request的session进行模拟登入的，整个思路和代码结构还是非常工整的。对于初学者来说还是非常不错的借鉴作用的，可以少走很多网络。

当然豆瓣还是稍微简单一些，其他很多复杂的网站都是用selenium进行模拟登入的，如果碰到复杂的验证码那就能麻烦了。

限于篇幅，如果对爬虫有兴趣的同学，可以下载这个repo学习一些主流的网站的爬虫代码，借鉴一下思路，吸收一波功力。

repo地址:

https://github.com/Kr1s77/awesome-python-login-model

近期八大热门：

发现一个舔狗福利！这个Python爬虫神器太爽了，自动下载妹子图片！
盗墓热再起！我爬取了6万条《重启之极海听雷》的评论，发现了这些秘密
用Python一键生成炫酷九宫格图片，火了朋友圈
菜鸟也疯狂！8分钟用Python做一个酷炫的家庭随手记
Github获8300星！用Python开发的一个命令行的网易云音乐
一道Python面试题，硬是没憋出来，最后憋出一身汗！卧槽！Pdf转Word用Python轻松搞定！教你6招，不错的Python代码技巧！

另外昨天的Leetcode 零钱兑换算法的三种解法，有同学留言没有看清代码，现在小编把源码分享出来，长按下面的二维码获取。有需要可以一起研究交流学习。