带属性广义树结构相似度的比较研究
在数据处理和分析领域,树结构的相似度计算是一个重要的研究方向。带属性广义树(Attributed Generalized Tree,AGT)结构能够表达语义和语用信息,在电子健康、电子商务和保险承保等领域有广泛应用。本文将对AGT相似度算法与其他几种常见算法进行比较分析。
1. 背景知识
广义树是有向的层次图,是对根树结构的扩展。普通广义树仅基于拓扑结构定义,而AGT结构通过顶点标签、边标签和边权重来表示语义和语用信息。AGT的根顶点携带类标签,重要性最高,随着顶点深度增加,重要性降低。
2. 算法概述
为了更好地理解不同算法的特点,下面对几种算法进行简要介绍:
- WT算法 :这是一种递归相似度算法,用于比较顶点带标签、边带标签和权重的树。具体操作步骤如下:
1. 从根节点开始访问两棵树的所有顶点。
2. 如果两个(子)树的根顶点标签相同,则通过相同的边标签进行自顶向下的遍历,比较顶点属性和边属性,使用精确字符串比较,结果为0.0或1.0。
3. 计算对应边权重的算术平均值,并在整合顶点属性、边属性和结构相似度时考虑这些结果。
4. 对于不同大小的结构,使用简单性(simplicity)来考虑缺失子结构对整体相似度的影响。简单性是通过计算子结构与对应空结构的相似度得到的,取值范围在[0, 1]之间。该算法的时间复杂度为线性。
- GT算法 :通过将每棵树转换为属性字符串来比较两个广义树的结构。属性字符串基于每个层次上顶点的出度和入度序列形成。具体步骤如下:
1. 确定对应属性字
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



