太骚了!GitHub上重磅开源爬虫工具箱,竟然可以爬小电影!

INFO-SPIDER是一个集成多种数据源的爬虫工具箱,允许用户安全快捷地获取个人数据,包括GitHub、邮箱、电商、社交平台等。该项目已在GitHub上获得2.4K+星,支持数据分析和图表生成,旨在解决个人数据孤岛问题。用户只需安装Python和Chrome驱动,运行脚本即可开始爬取和分析数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击上方“Github爱好者社区”,选择星标

回复“资料”,获取小编整理的一份资料

作者:GG哥

来源:GitHub爱好者社区(github_shequ)

这是GitHub爱好者社区第 56 篇原创文章

Hello,大家好,我是GG哥!

现在一般网站都有反爬虫机制,对于爱爬虫的朋友来说,想爬虫些数据,做下数据分析。是越来越难了。不过最近GG哥,发现一个超宝藏的爬虫工具箱。目前在GitHub已经有2.4K+星。

这个项目名字是“INFO-SPIDER”,INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、优快云博客、开源中国博客、简书。

依赖安装

  • 安装python3和Chrome浏览器

  • 安装与Chrome浏览器相同版本的驱动

  • 安装依赖库 ./install_deps.sh (Windows下只需pip install -r requirements.txt)

工具运行

  • 进入 tools 目录

  • 运行 python3 main.py

  • 在打开的窗口点击数据源按钮, 根据提示选择数据保存路径

  • 弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.

在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)

该项目解决了个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合的痛点。作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。该项目使用爬虫手段获取数据,所以程序存在时效问题(需要持续维护,根据网站的更新做出修改)。该项目的结构清晰,所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下,可移植到你的程序中。

目前,这个项目已经开源在Github。(Github地址:https://github.com/kangvcar/InfoSpider),如果你对这个项目感兴趣也可以参与贡献哦~

好了...

现在是真的结束了...

我已经夸不动了...





千言万语化成一句,这么优秀的仓库,大家多多给仓库创建者 star 支持,你们的 star 是万千开源者源源不断创作的动力!


当然还有多多对我的在看转发支持啦,你们的“在看转发”也是我源源不断创作的动力呀...



好啦,今天的分享就到这儿啦,我们下次见啦~



GitHub原创推荐•  GitHub上这个仿京东电商项目强势开源,前端,后台,数据库等统统都有!•  GitHub开源了1000本技术类的电子书,直接刷爆朋友圈!•  GitHub 开发者自制火星车,教程全面开源!网友:这才是大佬!•  字节跳动工程师在GitHub开源了一份刷题总结,狂揽8.2K星,霸屏GitHub!关注「Github爱好者社区」加星标,每天带你逛Github好玩的项目
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值