一、引言
昨天接到Mentor给的任务,让我写一个爬虫,根据给定的论文中中文作者的英文名字(实际上就是拼音),去GitHub和LinkedIn上爬去作者的邮箱,说是公司要用。对于一个爬虫小白的我来说,也算是一个艰巨的挑战了,毕竟这将是我写的第一个爬虫程序。大脑一片空白毫无思路可言。然后就开始了我的漫漫搜索之路,网上关于爬虫的文章确实不少,也找到不少干货,不够对于我这样的爬虫小白来说,确实比较难懂。不过最后还是找到了一篇可以让我入门的文章https://www.jianshu.com/p/628a0747c492,在这里我找到了GitHub的API接口。
- 教科书般的API接口信息
Github作为一个出色的代码托管平台,也为开发者们提供了结构非常清晰的API接口信息,浏览器安装json插件后阅读更佳。 - 详细的开发者文档
想了解相关参数设置和可爬取的数据,可阅读Github Developer Guide
就这样我写出了我的第一个爬虫程序。废话不多说,赶紧上思路。
二、思路
爬取目标:
用户的基本信息,邮箱,地址,GitHub主页地址。
逻辑思路:
- 先根据GitHub提供的search接口,根据用户的名字(fullname)搜索到用户信息,其中大多是和用户相关的URL地址。
- 过滤存储用户个人信息的URL地址。
- 得到存储用户个人信息的URL地址,将所需要的用户字段爬去下来。
- 过滤需要的用户信息字段,并返回。
具体实现:
- 单步讲解:
- 首先代码是使用Node.js的express框架写的。
- 查看GitHub的开发者文档,查看爬去用户信息的方法及参数设置。开发者文档如下所示。
function
gethomepage(
username,
req,
res) {
return
new
Promise(
function (
resolve,
reject) {
//根据名字,搜索基本信息
var
options = {
url:
'https://api.github.com/search/users?q=fullname:' +
username,
headers: {
'User-Agent'
:
'Mozilla/5.0',
'Authorization'
:
'token 78e380f2e6d1a4b8239d9c3baea026b6d248fe14',
'Content-Type'
:
'application/json',
'method'
:
'GET',
'Accept'
:
'application/json'
}