今天是持续写作的第 22 / 100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。
熟练的使用 Python 第三方库,00 后程序员必备神器。
每天对着电脑 10 多个小时,畅游在互联网的海洋了,吸收着无穷的知识,除了学习以外,最喜欢的还是找大佬做好的轮子。
本篇博客要迎来的是一个新轮子,而且还是一个爬虫小数据轮。
轮子简介
项目的名称:GoPUP
项目的官网:http://doc.gopup.cn/#/?id=gopup-cookbook
项目的 github:https://github.com/justinzm/gopup
项目的目的:GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。
轮子的一些说明
部分接口可以直接使用,例如 独角兽公司数据
。
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)
疫情数据接口调用如下。
import gopup as gp
df_index = gp.weibo_index(word="疫情", time_type="3month")
print(df_index)
部分接口是 VIP 接口,需要找开发者索取一下 token
,开发者微博 https://weibo.com/whzhengming。是否会付费橡皮擦没去了解,这里只是给该库做一个推荐。
测试过程中,也发现部分接口存在 BUG,例如下述获取 头条相关性分析
的接口,大概率是被爬取网站返回内容的问题。
import gopup as gp
index_df = gp.toutiao_relation(
keyword="口罩", start_date='20201016', end_date='20201022')
print(index_df)
已经开发完毕的接口如下:
数据仓库
指数数据
微博指数数据
百度数据
百度搜索数据
百度资讯指数
百度媒体指数
百度需求图谱
百度人群画像年龄分布
百度人群画像性别分布
百度人群画像兴趣分布
头条数据
头条指数数据
头条相关性分析
头条情感分析
头条地域分析
头条城市分析
头条年龄分析
头条性别分析
头条用户阅读兴趣分类
谷歌数据
谷歌指数数据
谷歌事实查证
宏观数据
中国宏观数据
中国宏观杠杆率数据
货币汇率数据
利率数据
Shibor数据
报价数据
Shibor均值数据
LPR数据
新经济公司
千里马公司
独角兽公司
倒闭公司
商业特许经营公司
KOL数据
微博数据
微博账户数据
微博运营数据
信息数据
新闻联播文字稿
生活数据
中国油价数据
汽柴油历史调价信息
调价日的地区油价历史数据
百度迁徙数据
迁入与迁出地详情
迁徙规模
诗词数据
唐代诗人
唐诗数据
影视数据
实时电影票房数据
单日电影票房数据
单日影院票房数据
实时电视剧播映指数
实时综艺播映指数
艺人商业价值
艺人流量价值
全国高校
全国普通高等学校名单
全国成人高等学校名单
全国高等学校详情数据
疫情数据
网易疫情数据
丁香园疫情数据
百度疫情数据
疫情历史数据
迁徙数据-百度
轮子前景
用轮子可以提高编码速度,拆轮子可以学习编码技术,这就是轮子的好处。不过该库存在的一个问题是侵权的问题,如果被抓取的网站追责,可能这个库咱就用不了了。
该库对于学习者来说,还是有价值的,看的代码越多,你的代码水平会越高。
橡皮擦叨叨
本项目倒是给橡皮擦一些启发,原来写爬虫可以做一些数据接口的整合,妙啊,github 不就之后启动一个项目,然后找些群里的朋友一起维护,又能学习,又能赚钱。
如果你想跟博主建立亲密关系,可以关注同名公众号 梦想橡皮擦,近距离接触一个逗趣的互联网高级网虫。
博主 ID:梦想橡皮擦,希望大家点赞、评论、收藏。