拓扑数据分析与同伦算法:从聚类到回归的深入探索
1. 拓扑数据分析中的Mapper算法
在拓扑数据分析(TDA)领域,Mapper算法是一种强大的聚类工具,用于挖掘数据中的子组结构。它通过多阶段过程实现聚类,结合了Morse理论和持久同调中的过滤概念,提供了一种基于拓扑的聚类方法。
1.1 Mapper算法步骤
- 过滤点云 :使用称为Morse函数的标量值函数对数据点云进行过滤。
- 划分重叠区间 :将过滤后的数据划分为重叠的区间(bins),以便观察具有不同Morse函数值的区域之间的潜在关系。
- 区间内聚类 :在每个区间内进行聚类操作。
- 构建图或单纯复形 :根据区间间聚类的重叠情况,将聚类结果连接成图或单纯复形。
以下是Mapper算法步骤的mermaid流程图:
graph LR
A[过滤点云] --> B[划分重叠区间]
B --> C[区间内聚类]
C --> D[构建图或单纯复形]
在实际应用中,通常会在过滤之前对原始数据应用距离度量(如相关性、欧几里得距离、汉明距离等),以处理点云数据并创建更好的过滤函数。聚类距离度量数据集可以使用多种算法,但单链接层次聚类在实践中较为常用。
超级会员免费看
订阅专栏 解锁全文
270

被折叠的 条评论
为什么被折叠?



