数据转换、映射、总结及可视化实证研究
1. 数据距离量化方法
1.1 编辑距离
量化非结构化或复杂数据类型之间的距离/相似度的一种常见方法是考虑将一个实例转换为另一个实例的成本。这通常通过描述数据对象上的一组原子编辑操作,并为每种编辑类型分配成本来实现。
例如,在比较字典单词(忽略其语义)时,可以为更改单词中的字母、添加或删除字母分配成本。以将“Sunday”转换为“Saturday”为例,首先发现首字母和最后三个字母相同,要将中间的“un”转换为“atur”,可以将“n”替换为“r”,然后插入“t”和“a”。具体的编辑序列取决于每个操作的成本,而编辑距离通常是将一个对象转换为另一个对象的最便宜编辑的成本。
编辑距离在遗传学中被广泛用于比较遗传序列(本质上是字符串)。如果成本结构构建得当,可以使用 Dykstra 算法有效地计算编辑距离。
在图分析中也有编辑距离的应用。未对齐的图是指图之间的顶点没有唯一标识的图。可以通过删除、引入或更改节点上的标签,以及对边进行类似的编辑来比较具有不同类型节点的图。这种编辑距离可用于对图的集合进行聚类、将它们嵌入到低维空间或可视化它们随时间的演变。不过,图编辑距离的计算具有挑战性,一般是 NP 难问题,但对于特殊情况的图(如无环图),比较更容易处理,并且近似解通常非常有效。
1.2 编辑距离应用总结
| 应用领域 | 具体应用 | 计算难度 |
|---|---|---|
| 遗传学 |
超级会员免费看
订阅专栏 解锁全文
757

被折叠的 条评论
为什么被折叠?



