数据科学:从模型学习到可视化探索
1. 数据科学中的流形与拓扑学习
在数据科学领域,流形上的距离测量是一个关键问题。在一维螺旋流形上添加高斯噪声时,会出现短路问题,这会导致对区域间测地距离的严重低估。而且,流形的全局折叠程度和噪声的存在会增加流形短路的风险。
为了应对这一问题,可以通过构建由相似度加权的邻近图,并计算通勤时间距离或扩散距离等方法来测量流形上的距离。与最短路径距离相比,基于随机游走的图距离能减少短路问题。因为在所有可能路径的集合中,虚假路径的概率较低,与沿流形的其他较长路径相比,其在随机游走中的影响会逐渐消失。
拓扑学习是研究数据全局结构的另一种方法,它有助于识别流形的一些拓扑属性,如连通分量的数量、孔洞及其维度等。例如,在某些数据集中,可以识别出由三到四个连通分量构成的流形。生成高斯图(GGG)就是用于拓扑学习的一种方法,它通过一组添加了噪声的点和线段来对流形进行建模。这些点和线段可以初始化为数据集的一组原型以及这些原型之间的德劳内图的边,然后通过对所有点和线段生成的高斯混合进行期望最大化(EM)来优化。在这种方法中,线段在聚类之间的界面形成一维结构,我们称之为连续体。
2. 模型学习
2.1 分类
分类是将任何数据 ξ 分配到一个带有标签 L 的类别(即类)的过程。这些类通常是人类定义的概念。为了推断类别,分类依赖于训练集中的数据实例 {ξi},这些实例的真实类别通过注释 {Li} 给出。分类假设类与数据特征之间存在某种关系,分类器的目标是定义决策边界,将空间划分为不同的区域,每个区域对应一个单独的类。分类与聚类不同,聚类仅基于数据结构猜测类别,不会给这些类别赋予特定含义。常见的分类技术如下: