这学期选修《社会网络分析》需要爬取些数据,刚接触python对爬虫还不是很熟悉,过程中遇到一些问题,把心得分享给同样学习python爬虫的同学。
教科书般的API接口信息
Github作为一个出色的代码托管平台,也为开发者们提供了结构非常清晰的API接口信息,浏览器安装json插件后阅读更佳。
详细的开发者文档
想了解相关参数设置和可爬取的数据,可阅读Github Developer Guide
爬取目标:
"digital,library"主题下的开源项目合作情况,包含加权贡献值commit,additions,deletions.
注意事项:
Github的关键词检索功能比较有限,用双引号和逗号相结合表示AND检索.
逻辑思路:
先通过repository_search_url 获取检索结果下的项目信息
https://api.github.com/search/repositories?q={query}{&page,per_page,sort,order}
再根据项目信息中的{owner}{name}信息传递到stats/contributors页面获取相关和做贡献信息
https://api.github.com/repos/{owner}/{name}/stats/contributors
问题思考:
使用urlopen()需要导入、安装什么包?如何导入urllib包?
python3.x已经包含urlllib包,无需再安装,且不同于以往的urllib2,urllib分为urllib.request和urllib.error,导入urlopen的方法
from urllib.request import urlopen
如何解决API Rate Limiting限制?
初次爬取到的数据只有200多条记录,与事先的搜索结果不符,而且返回http error 403 forbidden,访问请求被禁止,阅读Github Developer Guide后才发现未经过认证的请求上限是60次/hour,打开api url也会发现该页只有30条记录,为了爬取到较为完整的数据,需要添加Authentication认证和Pagination分页
如何实现Authentication认证