一款爆红的开源爬虫工具箱

InfoSpider是一款开源的爬虫工具箱,允许用户安全地获取和分析来自多个平台的个人数据,如GitHub、邮箱、电商、运营商等。该项目提供GUI界面,操作简单,数据以JSON格式存储,便于后续分析。目前支持24+数据源,并提供部分数据分析功能。由于其代码开源、流程透明,用户可以放心使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击上方“编程派”,选择设为“设为星标”

优质文章,第一时间送达!

国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!

有多火呢?开源没几天就登上GitHub周榜第四,标星1.3K,累计分支 172 个(GitHub地址:https://github.com/kangvcar/InfoSpider)

在这样一个信息爆炸的时代,每个人都有很多个账号,账号一多就会出现这么一个情况:个人数据分散在各种各样的公司之间,就会形成数据孤岛,多维数据无法融合,这个项目可以帮你将多维数据进行融合并对个人数据进行分析,这样你就可以更直观、深入了解自己的信息。

InfoSpider 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、优快云博客、开源中国博客、简书。

根据创建者介绍,InfoSpider 具有以下特性:

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。

  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。

  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。

  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。

  • 数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。

  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。

  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。

InfoSpider使用起来也非常简单,你只需要安装python3和Chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据。

是不是很简单呢,如果你对InfoSpider也感兴趣,赶紧试一下。

来自:开源最前线(ID:OpenSourceTop) 

回复下方「关键词」,获取优质资源

回复关键词「 pybook03」,立即获取主页君与小伙伴一起翻译的《Think Python 2e》电子版

回复关键词「入门资料」,立即获取主页君整理的 10 本 Python 入门书的电子版

回复关键词「m」,立即获取Python精选优质文章合集

回复关键词「book 数字」,将数字替换成 0 及以上数字,有惊喜好礼哦~

题图:pexels,CC0 授权。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值