node.js爬取Github指定用户的个人信息,比如email,location,主页URL等

这篇博客记录了作者初次尝试爬虫的经历,通过Node.js利用GitHub API爬取特定用户的个人信息,包括邮箱、地址和主页URL。文章介绍了爬取目标、逻辑思路、具体实现步骤以及遇到的问题,如用户验证Token、返回403 Forbidden等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、引言

    昨天接到Mentor给的任务,让我写一个爬虫,根据给定的论文中中文作者的英文名字(实际上就是拼音),去GitHub和LinkedIn上爬去作者的邮箱,说是公司要用。对于一个爬虫小白的我来说,也算是一个艰巨的挑战了,毕竟这将是我写的第一个爬虫程序。大脑一片空白毫无思路可言。然后就开始了我的漫漫搜索之路,网上关于爬虫的文章确实不少,也找到不少干货,不够对于我这样的爬虫小白来说,确实比较难懂。不过最后还是找到了一篇可以让我入门的文章https://www.jianshu.com/p/628a0747c492,在这里我找到了GitHub的API接口。

  • 教科书般的API接口信息
    Github作为一个出色的代码托管平台,也为开发者们提供了结构非常清晰的API接口信息,浏览器安装json插件后阅读更佳。
  • 详细的开发者文档
    想了解相关参数设置和可爬取的数据,可阅读Github Developer Guide

就这样我写出了我的第一个爬虫程序。废话不多说,赶紧上思路。

二、思路

爬取目标:

用户的基本信息,邮箱,地址,GitHub主页地址。

逻辑思路:

  1. 先根据GitHub提供的search接口,根据用户的名字(fullname)搜索到用户信息,其中大多是和用户相关的URL地址。
  2. 过滤存储用户个人信息的URL地址。
  3. 得到存储用户个人信息的URL地址,将所需要的用户字段爬去下来。
  4. 过滤需要的用户信息字段,并返回。

具体实现:

  1. 单步讲解:

  1. 首先代码是使用Node.js的express框架写的。
  2. 查看GitHub的开发者文档,查看爬去用户信息的方法及参数设置。开发者文档如下所示。
其中对我们有用的就是查询条件中的Fullname。使用方法如下所示,首先构造访问的URL,然后将URL和Headers封装。需要提醒的一点是,headers中一定要将你的github上生成的token放上,并且一定要包含User-Agent字段,否则你的请求会被拒绝,返回403Forbidden。具体处理办法请见
function gethomepage( username, req, res) {
return new Promise( function ( resolve, reject) {
//根据名字,搜索基本信息
var options = {
url: 'https://api.github.com/search/users?q=fullname:' + username,
headers: {
'User-Agent' : 'Mozilla/5.0',
'Authorization' : 'token 78e380f2e6d1a4b8239d9c3baea026b6d248fe14',
'Content-Type' : 'application/json',
'method' : 'GET',
'Accept' : 'application/json'
}
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值