对于没有爬虫基础的朋友而言相对会有点难度,小主建议您先安照Python基础学习再去学习我的爬虫精选系列
今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub。
python爬虫精选外传(23个GitHub爬虫实战分享)
文章目录
- python爬虫精选外传(23个GitHub爬虫实战分享)
-
- 1、WechatSogou – 微信公众号爬虫
- 2、DouBanSpider – 豆瓣读书爬虫
- 3、zhihu_spider – 知乎爬虫
- 4、bilibili-user – Bilibili用户爬虫
- 5、SinaSpider – 新浪微博爬虫
- 6、distribute_crawler – 小说下载分布式爬虫
- 7、CnkiSpider – 中国知网爬虫
- 8、LianJiaSpider – 链家网爬虫
- 9、scrapy_jingdong – 京东爬虫
- 10、QQ-Groups-Spider – QQ 群爬虫
- 11、wooyun_public – 乌云爬虫
- 12、spider – hao123网站爬虫
- 13、findtrip – 机票爬虫(去哪儿和携程网)
- 14、163spider – 基于requests、MySQLdb、torndb的网易客户端内容爬虫
- 15、doubanspiders – 豆瓣电影、书籍、小组、相册、东西等爬虫集
- 16、QQSpider – QQ空间爬虫
- 17、baidu-music-spider – 百度mp3全站爬虫
- 18、tbcrawler – 淘宝和天猫的爬虫
- 19、stockholm – 一个股票数据(沪深)爬虫和选股策略测试框架
- 20、BaiduyunSpider – 百度云盘爬虫
- 21、Spider – 社交数据爬虫
- 22、proxy pool – Python爬虫代理IP池(proxy pool)
- 23、music-163 – 爬取网易云音乐所有歌曲的评论
1、WechatSogou – 微信公众号爬虫
基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
github地址:
https://github.com/Chyroc/WechatSogou
2、DouBanSpider – 豆瓣读书爬虫
可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
github地址:
https://github.com/lanbing510/DouBanSpider
3、zhihu_spider – 知乎爬虫
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
github地址:
https://github.com/LiuRoy/zhihu_spider
4、bilibili-user – Bilibili用户爬虫
总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
github地址:
https://github.com/airingursb/bilibili-user