利用关联开放数据进行类标注
1. 引言
在处理RDF数据集时,对类进行准确标注以及发现类层次结构有助于更好地理解和组织数据内容。本文将介绍基于关联开放数据的类标注方法,包括属性标注、词汇表标注、混合标注,以及类层次结构的发现,并对结果进行评估。
2. 类标注算法
2.1 属性标注
- 对于属性描述CP,提取的标注 $a_i$ 满足 $a_i \in {A_1 \cup A_2 \cup…A_n}$。
- 标注的权重 $w_i$ 计算方式为:$w_i = \sum_{\forall(p_j,\alpha_j)\in CP \land a_i\in A_j} \alpha_j / |CP|$,即 $a_i$ 被提取的属性概率之和除以CP中属性的数量。
- 若某些属性返回相同标注,则计算这些属性的概率之和,再除以属性总数进行权重归一化,最后返回权重最高的k个标注。
2.2 词汇表标注
- RDF词汇表是预定义的谓词集合,用于描述实体。词汇表通过创建本体来定义,包含所有可能的类和属性及其范围和域。
- 选择特定领域的词汇表,如FOAF用于描述人物关系,RDA用于书目数据等。使用Linked Open Vocabularies (LOV),因为它涵盖了标准机构和个人发布的广泛领域的词汇表。
- 为数据集中的类进行标注时,在词汇表中搜索属性的范围和域作为类的可能标注。例如,FOAF中“foaf : name”的域是“Person”,可作为类的标注;RDA中“rda : creator”的范围是“Author”
超级会员免费看
订阅专栏 解锁全文
1010

被折叠的 条评论
为什么被折叠?



