深度时空聚类:多维气候数据的时间聚类方法
1 引言
时空数据在地球科学、大气科学和环境科学等多个学科中普遍存在。这类数据通常是通过在一段时间内对特定区域进行监测而生成的,形成了包含时间、经度、纬度和测量变量(如温度和湿度)的四维(4D)数据集。对这类时空数据进行研究的一个重要方法是沿着时间维度进行无监督数据聚类,将记录分类成更小的组。
然而,对4D时空数据进行聚类存在诸多挑战:
- 大多数传统聚类算法(如k-means)仅适用于二维表格数据,难以处理4D时空数据。直接将4D时空数据转换为2D表格数据,不仅会导致数据维度极高,还会丢失原始数据中的空间和时间模式。
- 常见的降维方法(如PCA)虽能在应用聚类算法前降低数据维度,但无法保留数据集的非线性关系,导致聚类精度不佳。
- 最近开发的基于深度学习的聚类算法虽能学习数据集的非线性特征,但仅关注数据集的空间或时间特征,未能同时考虑时空特征。
为应对高维时空聚类的这些挑战,我们提出了一种受U-net架构启发的新型时空自编码器模型。该模型应用于流行的气候数据ECMWF ERA5全球再分析产品,以评估其性能。此模型将输入数据集非线性映射到低维隐藏特征空间,通过在编码器模块中结合CNN和LSTM层,评估数据集的空间和时间特性,生成更稳健的潜在特征。同时,自定义聚类层应用于潜在特征以生成聚类结果,并使用学生t分布的内在逻辑迭代改进结果。解码器模块则调整权重,以减少输入数据与重建数据之间的差异,同时从低维潜在特征中学习重建高维输入数据。实验分析表明,该模型显著提高了聚类精度,并能捕捉不同时间序列的通用特性。
我们的主要贡献包括:
1. 在同一模型中实现了空间和时间特征的端到端学习。
超级会员免费看
订阅专栏 解锁全文
515

被折叠的 条评论
为什么被折叠?



