5、数据科学：从模型学习到可视化探索

keras9composer

于 2025-07-04 09:05:45 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：非线性降维技术及其应用文章标签：数据科学流形学习拓扑学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/keras9composer/article/details/149527149

非线性降维技术及其应用专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据科学：从模型学习到可视化探索

1. 数据科学中的流形与拓扑学习

在数据科学领域，流形上的距离测量是一个关键问题。在一维螺旋流形上添加高斯噪声时，会出现短路问题，这会导致对区域间测地距离的严重低估。而且，流形的全局折叠程度和噪声的存在会增加流形短路的风险。

为了应对这一问题，可以通过构建由相似度加权的邻近图，并计算通勤时间距离或扩散距离等方法来测量流形上的距离。与最短路径距离相比，基于随机游走的图距离能减少短路问题。因为在所有可能路径的集合中，虚假路径的概率较低，与沿流形的其他较长路径相比，其在随机游走中的影响会逐渐消失。

拓扑学习是研究数据全局结构的另一种方法，它有助于识别流形的一些拓扑属性，如连通分量的数量、孔洞及其维度等。例如，在某些数据集中，可以识别出由三到四个连通分量构成的流形。生成高斯图（GGG）就是用于拓扑学习的一种方法，它通过一组添加了噪声的点和线段来对流形进行建模。这些点和线段可以初始化为数据集的一组原型以及这些原型之间的德劳内图的边，然后通过对所有点和线段生成的高斯混合进行期望最大化（EM）来优化。在这种方法中，线段在聚类之间的界面形成一维结构，我们称之为连续体。

2. 模型学习

2.1 分类

分类是将任何数据 ξ 分配到一个带有标签 L 的类别（即类）的过程。这些类通常是人类定义的概念。为了推断类别，分类依赖于训练集中的数据实例 {ξi}，这些实例的真实类别通过注释 {Li} 给出。分类假设类与数据特征之间存在某种关系，分类器的目标是定义决策边界，将空间划分为不同的区域，每个区域对应一个单独的类。分类与聚类不同，聚类仅基于数据结构猜测类别，不会给这些类别赋予特定含义。常见的分类技术如下：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。