python github api_Github API: 用python爬取相关数据

weixin_39689622

于 2020-12-22 13:22:29 发布

阅读量915

点赞数

文章标签： python github api

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39689622/article/details/111849679

版权

本文介绍了使用Python通过Github API爬取特定主题（"digital,library"）下开源项目的合作情况，包括加权贡献值。文章讨论了如何处理API Rate Limiting限制、Authentication认证和结果分页，分享了遇到的问题及解决方案。" 130772243,17598310,C语言控制结构详解：分支与循环,"['C语言', '开发语言', '控制结构']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这学期选修《社会网络分析》需要爬取些数据，刚接触python对爬虫还不是很熟悉，过程中遇到一些问题，把心得分享给同样学习python爬虫的同学。

教科书般的API接口信息

Github作为一个出色的代码托管平台，也为开发者们提供了结构非常清晰的API接口信息，浏览器安装json插件后阅读更佳。

详细的开发者文档

想了解相关参数设置和可爬取的数据，可阅读Github Developer Guide

爬取目标：

"digital,library"主题下的开源项目合作情况，包含加权贡献值commit,additions,deletions.

注意事项：

Github的关键词检索功能比较有限，用双引号和逗号相结合表示AND检索.

逻辑思路：

先通过repository_search_url 获取检索结果下的项目信息

https://api.github.com/search/repositories?q={query}{&page,per_page,sort,order}

再根据项目信息中的{owner}{name}信息传递到stats/contributors页面获取相关和做贡献信息

https://api.github.com/repos/{owner}/{name}/stats/contributors

问题思考：

使用urlopen()需要导入、安装什么包？如何导入urllib包？

python3.x已经包含urlllib包，无需再安装，且不同于以往的urllib2，urllib分为urllib.request和urllib.error，导入urlopen的方法

from urllib.request import urlopen

如何解决API Rate Limiting限制？

初次爬取到的数据只有200多条记录，与事先的搜索结果不符，而且返回http error 403 forbidden，访问请求被禁止，阅读Github Developer Guide后才发现未经过认证的请求上限是60次/hour，打开api url也会发现该页只有30条记录，为了爬取到较为完整的数据，需要添加Authentication认证和Pagination分页

如何实现Authentication认证

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。