爬虫概述
早在2016年,我用我的阿里云ECS上运行了一个长期性质的爬虫程序,内容是采集风云二号气象卫星照片,现在假期终于有时间回来查看结果,简单统计如下(附图):
图片总数:45869 个文件
最早文件:201609131345.jpg
最晚文件:201910091415.jpg

爬虫运行过程
1,数据源:
当时意外获得一个长期有效的数据来源,其URL参数,为时间格式,也就是说有着明显的规律。适合爬虫运行
2,爬虫运行:
这个爬虫的运行条件其实有2个:1定时下载;2不停机运行;
既然是气象数据,当然得定时抓取,所以我写了一个windows服务,置于后台连续运行。虽然中间由于服务器其他问题导致中断过几次,不过架不住时间长久,因此还是成功连续采集了很多数据。
还有个要求就是不能关机,程序需要连续运行。我的最终方案就是使用云服务器ECS部署运行。避免使用个人PC长期开机来运行。
3,处理存储:
首先,这个程序既然要长期运行,那么非常避讳的一点就是所有结果都集中在一个本地文件夹里,因此我选用了阿里云对象存储OSS,同时由于我需要不关机,所以我最终是云服务器ECS+

本文分享了一次使用阿里云ECS运行长期爬虫程序,采集风云二号气象卫星照片的经历。通过定时爬取,数据存储在阿里云OSS中,实现了不间断的数据收集。最终因数据源失效,爬虫停止,但已积累45869张图片。
最低0.47元/天 解锁文章
6179

被折叠的 条评论
为什么被折叠?



