java_github_crawler
爬虫项目
周末的丢
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一:获取到所有待收集信息的项目列表
步骤:获取到所有待收集信息的项目列表遍历项目列表 依次获取到每个项目的主页信息 进一步就可以直到该项目的star数 fork数 issue数把这些数据存储到mysql中写一个简单服务器 来展示数据库中的数据(通过图标的形式 看到一个更直观的效果)一.获取到所有待收集信息的项目列表自己写一个爬虫程序,访问Awesome-java这个页面,然后进一步获取这个页面上所有项目链接的信息...原创 2020-03-24 16:39:58 · 884 阅读 · 0 评论 -
三:数据存储之如何存储
目录三、数据存储3.1设计表结构3.2管理数据库连接步骤:获取到所有待收集信息的项目列表遍历项目列表 依次获取到每个项目的主页信息 进一步就可以直到该项目的star数 fork数 issue数把这些数据存储到mysql中写一个简单服务器 来展示数据库中的数据(通过图标的形式 看到一个更直观的效果)三、数据存储在我的上一篇博客中,我已经将完成了将页面数据分析出来并放到一个Arra...原创 2020-03-24 16:40:44 · 580 阅读 · 0 评论 -
四:数据存储之优化
在上一节数据存储中,我遍历了projects并且把数据存储到了数据库,但是时间有点长,这一节我们主要是分析并优化这个存储过程目录一:获取到所有待收集信息的项目列表二:遍历项目列表,依次获取到每个项目的主页信息,进一步就可以直到该项目的star数、fork数、issue数三:数据存储之存储四:数据存储之优化(本文)步骤:获取到所有待收集信息的项目列表遍历项目列表 依次获取到每个项目的主页信...原创 2020-03-24 16:41:31 · 398 阅读 · 0 评论 -
五:展示模块
五:展示模块我已经把数据都存储到Mysql数据库了,那么我就可以写一个Servlet程序从数据库拿数据并用网页展示出来啦我这个项目一个比较核心的功能就是展示每一天Github上项目火热的趋势,就是爬取,也就是展示每天的排行5.1:根据指定日期获取数据库信息扩充ProjectDao类,新增一个方法,可以根据指定日期获取数据库信息public class ProjectDao { publ...原创 2020-03-24 16:48:29 · 631 阅读 · 0 评论 -
0:爬虫项目
什么是爬虫本质上是一个Http客户端 , 和浏览器相比更为简单一些我们根据需要构造请求,并且再根据需要简单的解析一下响应数据爬虫的程序的优势就在于可以根据需要批量获取数据这个项目爬取Github中的一个叫Awesome-Java 项目在Awesome-java中能够看到很多的Java中开源第三方库还有框架具体的再点进去可以看到项目中的具体信息(star , fork , open_i...原创 2020-03-24 16:40:59 · 428 阅读 · 0 评论
分享