python github api_Github API: 用python爬取相关数据

本文介绍了使用Python通过Github API爬取特定主题("digital,library")下开源项目的合作情况,包括加权贡献值。文章讨论了如何处理API Rate Limiting限制、Authentication认证和结果分页,分享了遇到的问题及解决方案。" 130772243,17598310,C语言控制结构详解:分支与循环,"['C语言', '开发语言', '控制结构']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这学期选修《社会网络分析》需要爬取些数据,刚接触python对爬虫还不是很熟悉,过程中遇到一些问题,把心得分享给同样学习python爬虫的同学。

教科书般的API接口信息

Github作为一个出色的代码托管平台,也为开发者们提供了结构非常清晰的API接口信息,浏览器安装json插件后阅读更佳。

详细的开发者文档

想了解相关参数设置和可爬取的数据,可阅读Github Developer Guide

爬取目标:

"digital,library"主题下的开源项目合作情况,包含加权贡献值commit,additions,deletions.

注意事项:

Github的关键词检索功能比较有限,用双引号和逗号相结合表示AND检索.

逻辑思路:

先通过repository_search_url 获取检索结果下的项目信息

https://api.github.com/search/repositories?q={query}{&page,per_page,sort,order}

再根据项目信息中的{owner}{name}信息传递到stats/contributors页面获取相关和做贡献信息

https://api.github.com/repos/{owner}/{name}/stats/contributors

问题思考:

使用urlopen()需要导入、安装什么包?如何导入urllib包?

python3.x已经包含urlllib包,无需再安装,且不同于以往的urllib2,urllib分为urllib.request和urllib.error,导入urlopen的方法

from urllib.request import urlopen

如何解决API Rate Limiting限制?

初次爬取到的数据只有200多条记录,与事先的搜索结果不符,而且返回http error 403 forbidden,访问请求被禁止,阅读Github Developer Guide后才发现未经过认证的请求上限是60次/hour,打开api url也会发现该页只有30条记录,为了爬取到较为完整的数据,需要添加Authentication认证和Pagination分页

如何实现Authentication认证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值