4、基于随机森林算法的积雪覆盖分类模型构建与调优

基于随机森林算法的积雪覆盖分类模型构建与调优

1. 随机森林算法优势

随机森林(RF)算法在模型训练时,会为每个模型生成样本和特征的随机子集。与基于所有特征进行决策的决策树不同,RF 算法仅使用部分特征,这能减少高度相关但有偏差的特征对模型预测的影响。在土地覆盖分类领域,虽然存在许多复杂的机器学习模型,如卷积神经网络(CNN),但我们选择 RF 进行积雪分类,是因为它已在众多应用中被证明是一种强大且通用的技术。此外,RF 的计算成本较低,无需图形处理单元(GPU)即可进行模型训练,我们用笔记本电脑就能轻松搭建模型。

2. 所需 Python 包

以下是本章使用的重要 Python 包及其主要功能:
| 包名 | 版本 | 主要功能 |
| ---- | ---- | ---- |
| numpy | >= 1.20.0 | 为大型多维数组和矩阵提供数学运算 |
| pandas | >= 1.4.1 | 提供数据结构和操作,用于处理数值表和时间序列 |
| rasterio | >= 1.2.10 | 读取和写入栅格数据 |
| matplotlib | >= 3.5.1 | 数据可视化 |
| joblib | >= 1.0.1 | 保存和加载机器学习模型 |
| fiona | >= 1.8.21 | 读取和写入栅格数据 |

3. 数据准备

我们使用的卫星图像由 Planet Labs 教育与研究计划提供,该计划提供对 PlanetScope 影像的有限非商业访问权限。本章使用的产品是 Planet 正射校正产品

我如何对下面的实验进行复现A. Sentinel-2像素筛选 Sentinel-2像素筛选旨在保留最佳质量的同质农田像素,并过滤掉非农田和污染像素,包括云、雪和其他高反射表面。首先使用Sentinel-2 L2 A原始数据集提供的云掩模去除云像素。对于冬季和早春经常出现的积雪和高反射裸露地表,我们根据10-m分辨率的所有可见光和近红外(VNIR)波段(即490、560、665和842 nm)的表面反射率大于0.3的标准来识别它们,该标准基于用于区分它们的最佳反射率阈值的多个测试。 然后,将FROMGLC 10农田掩模应用于无云和无雪的Sentinel-2图像,仅保留农田Sentinel-2像素。 在训练样本的生成过程中,首先对Sentinel-2的农田掩模图像进行空间聚合,使其达到500 m的分辨率,然后采用简单平均法MODIS数据进行匹配,并对每个聚合后的500 m像元计算平均值、标准差和变异系数,变异系数是用平均值归一化的标准差,如果对于绿色(560 nm)、红色(665 nm)或近红外(842 nm)中的任何光谱带,变化系数大于0.1,这个500-m像素被放弃,因为它的高度空间异质性可能导致反射率-LAI/不同尺度下的FPAR关系。景观空间异质性影响中等空间分辨率遥感数据LAI的非线性估计[30]-[32]。 为了将500米的反射率-LAI/FPAR关系转换到10/20米的空间尺度,所有的训练样本都是在一个非常均匀的农田上生成的。 同时,10-m分辨率的FROM-GLC 10农田掩模也被空间聚合到500-m分辨率。对于该二值地图,500-m分辨率的像素只有在其至少90%的子像素被认为是农田时才被认为是农田最后,通过500米农田地图进一步细化500米聚合Sentinel-2图像。 B. MODIS像素筛选 我们使用MODIS LAI/FPAR产品提供的每个像元的辅助质量控制(QC)标签来确定最佳质量的像元,只保留主算法生成的有或没有饱和的像元,并记录其饱和状态以供进一步分析。然后将MODIS LAI/FPAR从正弦坐标重新投影到WGS-84坐标,以匹配处理后的500-m Sentinel-2数据。 C.训练样本生成 MODIS LAI/FPAR产品在其四天复合周期内选择最大估计值[28]。(即,LAI和FPAR值)在四天的时间段内不改变,因此Sentinel-2在该时间段内的过境捕获MODIS剂量相同的LAI/FPAR。由于Sentinel-2的时间分辨率结合Sentinel-2A和2B是五天,在一个MODIS合成周期内,最多只有一幅Sentinel-2图像,因此,我们将500-m Sentinel-2图像500-m MODIS LAI/FPAR图像相关联。 在2019 - 2020年的整个时间段内,我们在研究区域内随机采集了同步重叠的Sentinel-2和MODIS LAI/FPAR观测数据,共收集了95 000个训练数据对。由于很少有样本在MODIS LAI/FPAR质量标志中标记为饱和,我们进一步收集了5000个LAI/FPAR饱和像素的样本。2因此,收集了100000个训练样本,这些样本在研究区域具有完全的空间和时间代表性。 然而,非饱和样本是对数正态分布的,并且集中在小的莱什中,即LAI < 1,因此训练样本在稀疏植被条件下的权重很大(图3)。 因此,LAI中的截断高斯分布限制应用于非饱和样本,以放弃许多小的LAI样本(图3)。 然后,我们根据样品的LAI和FPAR对样品进行分组,LAI和FPAR组间隔分别为0.5和0.1。去除在每个LAI或FPAR间隔处绿色(560 nm)、红色(665 nm)和NIR(842 nm)表面反射率落在1.5四分位数范围(IQR)之外的样品。 IQR定义为第25和第75个采样点之间的差值,它是数据变异性的度量。异常值可能来自地理配准误差、气溶胶污染或不正确的农田分类,这些异常值会影响模型的性能。去除异常值后,这些不确定性可以在一定程度上得到降低。绿色、红色、图4显示了不同LAI或FPAR间隔的训练样本的Sentinel-2和NIR表面反射率。随着LAI或FPAR的增加,绿色和红色反射率降低,而NIR反射率增加。请注意,当LAI组数大于5或6时,当LAI > 2.5时,绿色、红色和近红外的反射率饱和,不确定性增加,最后分别剩下46963个非饱和和10355个饱和训练样本。 D.使用RF模型的LAI/FPAR反演 提出了各种各样的机器学习模型用于回归和函数逼近。本研究采用RF模型从处理的Sentinel-2表面反射率数据中检索LAI和FPAR。RF是多分类和回归树(CART)
03-08
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值