5、数据科学:从分析到可视化探索

数据科学:从分析到可视化探索

1. 数据科学背景

在数据科学领域,流形短路问题是一个需要关注的现象。当一维螺旋流形存在高斯噪声时,会导致对区域间测地距离的严重低估。流形的全局折叠程度越高、噪声越大,流形短路的风险就越高。

为了应对这一问题,可以通过构建由相似度加权的邻近图,并计算通勤时间距离或扩散距离等方法来获取流形上的其他距离度量。与最短路径距离相比,基于随机游走的图距离能减少短路问题。因为在所有可能路径的集合中,虚假路径的概率较低,在随机游走中,与流形上的其他较长路径相比,其影响会逐渐消失。

拓扑学习是研究数据全局结构的另一种方式,它有助于识别流形的一些拓扑属性,如连通分量的数量、孔洞及其维度等。例如,在某些数据集中,可以识别出由三到四个连通分量构成的流形(具体取决于定义支持的密度阈值)。生成高斯图(GGG)的目标就是进行拓扑学习,它通过一组添加了噪声的点和线段来对流形进行建模,这是生成单纯复形建模的一种可处理版本。这些点和线段可以初始化为数据集的一组原型以及这些原型之间的德劳内图的边,然后通过对所有点和线段生成的高斯混合进行期望最大化(EM)来进行优化。在这种方法中,线段在聚类之间的界面形成一维(1D)结构,我们称之为连续体。

2. 自动化任务
2.1 模型学习
  • 分类 :分类是将任何数据 ξ 分配到一个带有标签 L 的类别(称为类)的过程。这些类别通常是人类定义的概念。为了推断类别,分类依赖于训练集中的数据实例 {ξi},其真实类别通过注释 {Li} 提供。分类假设类别与数据特征之间存在某种关系,分类器的目标是定义决策边界,将空间划分为不同的区域,每个区域
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值