golang爬虫高并发抓取阳光高考招生简章
链接地址
一级页面 学校列表
https://gaokao.chsi.com.cn/zsgs/zhangcheng/listVerifedZszc–method-index,lb-1,start-0.dhtml
二级页 招生简章列表
https://gaokao.chsi.com.cn/zsgs/zhangcheng/listZszc–schId-5.dhtml
三级页 招生章程内容
https://gaokao.chsi.com.cn/zsgs/zhangcheng/listVerifedZszc–infoId-2708104715,method-view,schId-5.dhtml
抓取流程

抓取框架 gathertool
框架地址: https://github.com/mangenotwork/gathertool
框架下载: go get github.com/mangenotwork/gathertool
介绍: 轻量级爬虫,接口测试,压力测试框架, 提高开发对应场景的golang程序。
框架文档: https://380949.baklib-free.com/

本文介绍了使用Golang和gathertool框架实现的高并发爬虫,从一级页面抓取学校列表,进一步抓取招生简章和详细内容,实现了全量数据的抓取和存储。
最低0.47元/天 解锁文章
5万+

被折叠的 条评论
为什么被折叠?



