多元地质统计数据中发现内在聚类的聚类方法
1. 引言
在众多科学领域中,带有地理坐标的多元数据日益普遍,同时也带来了重大的分析挑战。其中一个经典问题是将观测数据聚成空间上连续的组,使得同一组内的观测数据彼此相似,而不同组之间的观测数据存在差异。在地球科学领域,有许多这样的实际应用场景,如:
- 定义气候区;
- 确定相似土地利用区域;
- 识别考古遗址;
- 划分农业管理区域;
- 建立矿石类型。
在非空间框架下,聚类观测数据的问题已广为人知,许多教科书从描述性和理论性的角度都有相关介绍。主要的聚类方法有两种:层次聚类和划分聚类。层次聚类通过凝聚或分裂的过程构建树状层次结构;划分聚类则在指定聚类数量后,将观测数据划分为相应的聚类。然而,将这些非空间聚类算法应用于地质统计数据时,往往会产生空间上分散的聚类,这在很多应用中是不可取的,例如农业管理区域的划分。
在地质统计框架下,需要更具针对性的方法。地质统计数据通常具有空间依赖性和异质性,地理空间中相邻的观测数据可能具有相似的特征,而且不同子区域的均值、方差和/或空间依赖结构可能不同。因此,需要将具有相似属性值的数据位置聚成紧密相关或连续的聚类。聚类的实现方式主要取决于用于量化观测数据之间接近程度的度量方法。需要注意的是,属性空间中的接近并不意味着地理空间中的接近,因此除了考虑属性空间的接近程度,还需要考虑地理空间的接近程度,同一聚类中的数据位置在地理空间中通常应彼此相邻。
为了满足这些约束条件,传统的非空间聚类方法已被应用到地质统计环境中。现有的方法可以分为以下四类:
|类别|方法描述|缺点|
| ---- | ---- | ---- |
超级会员免费看
订阅专栏 解锁全文
7085

被折叠的 条评论
为什么被折叠?



