数据转换、映射与总结:全面解析与应用
1. 数据嵌入方法的替代策略
在数据处理中,除了保留点与点之间的距离,还可以将嵌入问题视为保留数据密度。t - sne嵌入方法就是基于这个策略,它通过非参数密度估计来计算局部概率密度,并构建目标坐标Y,使得每个点附近的点密度相似。这种方法广泛应用且通常有效,但会保留或增强数据中的聚类(聚类区域数据密度较高)。
另一种MDS类方法适用的情况是:数据点本身没有坐标,但距离或相似度信息容易获取,这在图布局问题中很常见。图的边通常带有权重,代表不相似度(近似距离)或相似度(内积)。例如,顶点关联着信号,像政治家的投票模式、城市或气象站的天气模式,或者生物学中基因、分子或生物体之间的相互作用。在这些情况下,将图的顶点嵌入二维空间进行可视化有时很有帮助。通常,相似度或距离是计算顶点二维坐标的一部分,应力最小化是常用方法,因为它可以与其他标准结合。图布局问题研究广泛,有效的解决方案除了考虑距离,还会关注边交叉、边/顶点密度等问题。
2. 数据总结方法
在很多情况下,我们会面对一组实例,每个实例可能是一个数据点或更复杂的对象,如函数、非结构化文档/记录或图。将这些数据以点或图标形式组织在二维显示中可能有帮助,但总结这些实例的整体结构和关系有时更有效。这里假设数据是同质且结构化的。
2.1 聚类问题
在实例或点集的可视化中,一个典型问题是理解样本之间的关系,以及数据是否自然形成组或聚类。聚类是模式识别和数据分析中的长期问题,有多种方法。通常,如果数据存在两个或更多子集,子集内点与点之间的距离小于与附近组的距离,则称数据由聚类组成。
聚类问题的典型表述是量化组间和组内距离(如
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



