17、数据转换、映射与总结:全面解析与应用

数据转换、映射与总结:全面解析与应用

1. 数据嵌入方法的替代策略

在数据处理中,除了保留点与点之间的距离,还可以将嵌入问题视为保留数据密度。t - sne嵌入方法就是基于这个策略,它通过非参数密度估计来计算局部概率密度,并构建目标坐标Y,使得每个点附近的点密度相似。这种方法广泛应用且通常有效,但会保留或增强数据中的聚类(聚类区域数据密度较高)。

另一种MDS类方法适用的情况是:数据点本身没有坐标,但距离或相似度信息容易获取,这在图布局问题中很常见。图的边通常带有权重,代表不相似度(近似距离)或相似度(内积)。例如,顶点关联着信号,像政治家的投票模式、城市或气象站的天气模式,或者生物学中基因、分子或生物体之间的相互作用。在这些情况下,将图的顶点嵌入二维空间进行可视化有时很有帮助。通常,相似度或距离是计算顶点二维坐标的一部分,应力最小化是常用方法,因为它可以与其他标准结合。图布局问题研究广泛,有效的解决方案除了考虑距离,还会关注边交叉、边/顶点密度等问题。

2. 数据总结方法

在很多情况下,我们会面对一组实例,每个实例可能是一个数据点或更复杂的对象,如函数、非结构化文档/记录或图。将这些数据以点或图标形式组织在二维显示中可能有帮助,但总结这些实例的整体结构和关系有时更有效。这里假设数据是同质且结构化的。

2.1 聚类问题

在实例或点集的可视化中,一个典型问题是理解样本之间的关系,以及数据是否自然形成组或聚类。聚类是模式识别和数据分析中的长期问题,有多种方法。通常,如果数据存在两个或更多子集,子集内点与点之间的距离小于与附近组的距离,则称数据由聚类组成。

聚类问题的典型表述是量化组间和组内距离(如

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值