18、数据转换、映射、总结及可视化实证研究

数据转换、映射、总结及可视化实证研究

1. 数据距离量化方法

1.1 编辑距离

量化非结构化或复杂数据类型之间的距离/相似度的一种常见方法是考虑将一个实例转换为另一个实例的成本。这通常通过描述数据对象上的一组原子编辑操作,并为每种编辑类型分配成本来实现。

例如,在比较字典单词(忽略其语义)时,可以为更改单词中的字母、添加或删除字母分配成本。以将“Sunday”转换为“Saturday”为例,首先发现首字母和最后三个字母相同,要将中间的“un”转换为“atur”,可以将“n”替换为“r”,然后插入“t”和“a”。具体的编辑序列取决于每个操作的成本,而编辑距离通常是将一个对象转换为另一个对象的最便宜编辑的成本。

编辑距离在遗传学中被广泛用于比较遗传序列(本质上是字符串)。如果成本结构构建得当,可以使用 Dykstra 算法有效地计算编辑距离。

在图分析中也有编辑距离的应用。未对齐的图是指图之间的顶点没有唯一标识的图。可以通过删除、引入或更改节点上的标签,以及对边进行类似的编辑来比较具有不同类型节点的图。这种编辑距离可用于对图的集合进行聚类、将它们嵌入到低维空间或可视化它们随时间的演变。不过,图编辑距离的计算具有挑战性,一般是 NP 难问题,但对于特殊情况的图(如无环图),比较更容易处理,并且近似解通常非常有效。

1.2 编辑距离应用总结

应用领域 具体应用 计算难度
遗传学
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值