美国宇航局的earthdata数据网站下发布了各式各样的数据集,公众可免费下载
(https://search.earthdata.nasa.gov/search)
然而当我们需要大批量下载数据时,手动下载的方式就显得捉襟见肘了
不同的数据集下给出了不同的批获取方式,有的需要Linux系统支持,有的给出了C++的下载脚本等等。
那么当然这些获取方式对我们做遥感的就有点呵呵呵。。。
下面给出了一个简单的python爬虫,只要简单的python库支持就可以打遍全网数据~
一般来说,在这个网站上下载数据,当请求下载成功以后,它们会给出url下载链接列表,大概就是下图这个样子吧,也不一定都是这样。
下载出来的就是放在txt这样文件中的一条条下载链接
对了注意在这上面下载数据是需要注册账户的
然后就通过python循环,一条条调取下载就行了~
# -*- coding: utf-8 -*-
import requests # get the requsts library from https://github.com/requests/requests
import re # 主要是可能会需要进行文件名字符串的匹配
# overriding requests.Session.rebuild_auth to mantain headers when redirected
# 一个自定义的类来辅助下载
class SessionWithHeaderRedirection(requests.Session):
AUTH_HOST = 'urs.earthdata.nasa.gov'
def __init__(self