参考协调与XML树模式查询处理技术解析
参考协调方法及实验
在参考协调领域,我们通过精确率(Precision)、召回率(Recall)和F值(F - measure)来衡量结果的质量。精确率、召回率和F值的定义如下:假设我们的方法输出的聚类集合为 $C = {C_1, C_2, …, C_n, …}$,真实情况的聚类集合为 $A = {A_1, A_2, A_3, …, A_n, …}$。在集合 $C$ 中的每个聚类 $C_i$ 里,检查所有的参考对,如果参考对中的参考也属于集合 $A$ 中的同一个元素,则真阳性(tp)加1,否则假阳性(fp)加1。在集合 $A$ 中的每个聚类 $A_i$ 里,检查所有的参考对,如果参考对中的参考不属于集合 $C$ 中的同一个聚类,则假阴性(fn)加1。具体计算公式如下:
- 精确率:$Precision = \frac{tp}{tp + fp}$
- 召回率:$Recall = \frac{tp}{tp + fn}$
- F值:$F - measure = \frac{2 * precision * recall}{precision + recall}$
我们希望假阳性和假阴性的值接近零,这样精确率和召回率就会接近1,算法的性能也就越好,F值作为精确率和召回率的综合指标也是如此。
DBLP - SUB数据集实验
DBLP - SUB系列有3个数据集,以dblp - sub - 01数据集为例,该数据集包含1509篇论文和4961位作者。实验步骤如下:
1. 数据预处理 :遍历XML文档中的所有元素,如作者、发表场所等,并记录它们的出现频率,